直接下载提交即可
“大数据技术” 课程形考作业三
一、单选题
- 下列传统并行计算框架,说法错误的是哪一项?
- 刀片服务器、高速网、SAN,价格贵,扩展性差上
- 共享式(共享内存/共享存储),容错性好
- 编程难度高
- 实时、细粒度计算、计算密集型
- 下列关于MapReduce模型的描述,错误的是哪一项?
- MapReduce采用“ 分而治之”策略
- MapReduce设计的一个理念就是“ 计算向数据靠拢”
- MapReduce框架采用了Master/Slave架构
- MapReduce应用程序只能用Java来写
3、Hadoop1.0的核心组件(仅指MapReduce和HDFS,不包括Hadoop生态系统内的Pig、Hive、HBase等其他组件),下列哪项是它的不足?
- 抽象层次高
- 表达能力有限,抽象层次低,需人工编码
- 价格昂贵
- 可维护性低
4、下面哪个选项不属于Hadoop1.0 的问题?
- 单一名称节点,存在单点失效问题
- 单一命名空间,无法实现资源隔离
- 资源管理效率低
- 很难上手
5、.下列有关Hive和Impala的对比错误的是:
(A) Hive与Impala使用相同的元数据
(B) Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划
(C) Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询
(D) Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此
6、 下列关于Hive基本操作命令的解释错误的是:
(A) create database userdb;//创建数据库userdb
(B) create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age
(C) load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表
(D) insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据
7、下面哪个不可能是Hive的执行引擎:
(A)MapReduce
(B)Tez
(C)Storm
(D)Spark
8、下列关于Spark的描述,错误的是哪一项?
(A)Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
(B)Spark在2014年打破了Hadoop保持的基准排序纪录.
(C)Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度
(D)Spark运行模式单一
9、下列关于Spark的描述,错误的是哪一项?
(A)使用DAG执行引擎以支持循环数据流与内存计算析
(B)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中
(C)支持使用Scala、Java、Python和R语言进行编程,但是不可以通过Spark Shell进行交互式编程
(D)可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中
10、下列关于Scala特性的描述,错误的是哪一项?
(A)Scala语法复杂,但是能提供优雅的API计算
(B)Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统
(C)Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
(D)Scala是Spark的主要编程语言
二、多选题
- MapReduce相较于传统的并行计算框架有什么优势?
- 非共享式,容错性好
- 普通PC机,便宜,扩展性好
- 编程简单,只要告诉MapReduce做什么即可
- 批处理、非实时、数据密集型
- MapReduce体系结构主要由以下那几个部分构成?
- Client
- JobTracker
- TaskTracker
- Task
- 下列关于MapReduce的体系结构的描述,说法正确的有?
- 用户编写的MapReduce程序通过Client提交到JobTracker端
- JobTracker负责资源监控和作业调度
- TaskTracker监控所有TaskTracker与Job的健康状况
- TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
4、下列选项中,哪些属于Hadoop1.0的核心组件的不足之处?
- 实时性差(适合批处理,不支持实时交互式)
- 资源浪费(Map和Reduce分两阶段执行)
- 执行迭代操作效率低
- 难以看到程序整体逻辑
5、Hadoop的优化与发展主要体现在哪几个方面?
- Hadoop自身核心组件MapReduce的架构设计改进
- Hadoop自身核心组件HDFS的架构设计改进
- Hadoop生态系统其它组件的不断丰富
- Hadoop生态系统减少不必要的组件,整合系统
6、下列哪些属于Hadoop2.0相对于Hadoop1.0的改进?
- 设计了HDFS HA
- 提供名称节点热备机制
- 设计了HDFS Federation,管理多个命名空间
- 设计了新的资源管理框架YARN
7、 下列说法正确的是:
(A) 数据仓库Hive不需要借助于HDFS就可以完成数据的存储
(B)Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上
(C)Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据
(D)HiveQL语法与传统的SQL语法很相似
8、Impala主要由哪几个部分组成:
(A)Impalad
(B)State Store
(C) CLI
(D) Hive
9、Spark具有以下哪几个主要特点?
(A)运行速度快
(B)容易使用
(C)通用性
(D)运行模式单一
10、Scala具有以下哪几个主要特点?
(A)Scala的优势是提供了REPL(Read-Eval-Print Loop,交互式解释器),提高程序开发效率
(B)Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
(C)Scala具备强大的并发性,支持函数式编程
(D)Scala可以更好地支持分布式系统
主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网