直接下载提交即可

“大数据技术” 课程形考作业三

一、单选题

  • 下列传统并行计算框架,说法错误的是哪一项?
  • 刀片服务器、高速网、SAN,价格贵,扩展性差上
  • 共享式(共享内存/共享存储),容错性好
  • 编程难度高
  • 实时、细粒度计算、计算密集型
  • 下列关于MapReduce模型的描述,错误的是哪一项?
  • MapReduce采用“ 分而治之”策略
  • MapReduce设计的一个理念就是“ 计算向数据靠拢”
  • MapReduce框架采用了Master/Slave架构
  • MapReduce应用程序只能用Java来写

3、Hadoop1.0的核心组件(仅指MapReduce和HDFS,不包括Hadoop生态系统内的Pig、Hive、HBase等其他组件),下列哪项是它的不足?

  • 抽象层次高
  • 表达能力有限,抽象层次低,需人工编码
  • 价格昂贵
  • 可维护性低

4、下面哪个选项不属于Hadoop1.0 的问题?

  • 单一名称节点,存在单点失效问题
  • 单一命名空间,无法实现资源隔离
  • 资源管理效率低
  • 很难上手

5、.下列有关Hive和Impala的对比错误的是:

(A)  Hive与Impala使用相同的元数据

(B)  Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划

(C)  Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询

(D)  Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此

6、 下列关于Hive基本操作命令的解释错误的是:

(A)  create database userdb;//创建数据库userdb

(B)  create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age

(C) load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表

(D)  insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据

7、下面哪个不可能是Hive的执行引擎:

(A)MapReduce

(B)Tez

(C)Storm

(D)Spark

8、下列关于Spark的描述,错误的是哪一项?

(A)Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发

(B)Spark在2014年打破了Hadoop保持的基准排序纪录.

(C)Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度

(D)Spark运行模式单一

9、下列关于Spark的描述,错误的是哪一项?

(A)使用DAG执行引擎以支持循环数据流与内存计算析

(B)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中

(C)支持使用Scala、Java、Python和R语言进行编程,但是不可以通过Spark Shell进行交互式编程

(D)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中

10、下列关于Scala特性的描述,错误的是哪一项?

(A)Scala语法复杂,但是能提供优雅的API计算

(B)Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统

(C)Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中

(D)Scala是Spark的主要编程语言

 

二、多选题

  • MapReduce相较于传统的并行计算框架有什么优势?
  • 非共享式,容错性好
  • 普通PC机,便宜,扩展性好
  • 编程简单,只要告诉MapReduce做什么即可
  • 批处理、非实时、数据密集型
  • MapReduce体系结构主要由以下那几个部分构成?
  • Client
  • JobTracker
  • TaskTracker
  • Task
  • 下列关于MapReduce的体系结构的描述,说法正确的有?
  • 用户编写的MapReduce程序通过Client提交到JobTracker端
  • JobTracker负责资源监控和作业调度
  • TaskTracker监控所有TaskTracker与Job的健康状况
  • TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)

4、下列选项中,哪些属于Hadoop1.0的核心组件的不足之处?

  • 实时性差(适合批处理,不支持实时交互式)
  • 资源浪费(Map和Reduce分两阶段执行)
  • 执行迭代操作效率低
  • 难以看到程序整体逻辑

5、Hadoop的优化与发展主要体现在哪几个方面?

  • Hadoop自身核心组件MapReduce的架构设计改进
  • Hadoop自身核心组件HDFS的架构设计改进
  • Hadoop生态系统其它组件的不断丰富
  • Hadoop生态系统减少不必要的组件,整合系统

6、下列哪些属于Hadoop2.0相对于Hadoop1.0的改进?

  • 设计了HDFS HA
  • 提供名称节点热备机制
  • 设计了HDFS Federation,管理多个命名空间
  • 设计了新的资源管理框架YARN

7、 下列说法正确的是:

(A) 数据仓库Hive不需要借助于HDFS就可以完成数据的存储

(B)Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上

(C)Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据

(D)HiveQL语法与传统的SQL语法很相似

8、Impala主要由哪几个部分组成:

(A)Impalad

(B)State Store

(C) CLI

(D) Hive

9、Spark具有以下哪几个主要特点?

(A)运行速度快

(B)容易使用

(C)通用性

(D)运行模式单一

10、Scala具有以下哪几个主要特点?

(A)Scala的优势是提供了REPL(Read-Eval-Print Loop,交互式解释器),提高程序开发效率

(B)Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中

(C)Scala具备强大的并发性,支持函数式编程

(D)Scala可以更好地支持分布式系统

 

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。