直接下载提交即可

“大数据技术” 课程形考作业四

一、单选题

  • 下列关于流计算的说法,哪项是错误的?
  • 实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息
  • 流计算秉承一个基本理念,即 数据的价值随着时间的流逝而降低
  • 对于一个流计算系统来说,它应该支持TB级甚至是PB级的数据规模
  • 流计算只需要保证较低的延迟时间,即只达到秒级别即可处理一切问题
  • 下列关于数据处理流程,说法有误的是?
  • 在传统的数据处理流程中,存储的数据是旧的
  • 在传统的数据处理流程中,需要用户主动发出查询来获取结果
  • 传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中
  • 流计算的处理流程一般包含三个阶段:数据实时采集、数据批量计算、实时查询服务

3、下面描述错误的是:

(A) Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态

(B) Spark Streaming通过采用微批处理方法实现了高吞吐和容错性,但是牺牲了低延迟和实时处理能力

(C) Flink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理

(D) Spark Streaming可以实现毫秒级响应,而Flink只能实现秒级响应

4、以下哪个不属于事件驱动型应用?

(A) 反欺诈

(B) 异常检测

(C) 基于规则的报警

(D) 消费者技术中的实时数据即席分析

5、下列关于图结构数据的描述,错误的是?

(A) 许多非图结构的大数据,通常会被转换为关系模型后进行分析

(B) 许多大数据都是以大规模图或网络的形式呈现

(C) 图数据结构很好地表达了数据之间的关联性

(D) 关联性计算是大数据计算的核心

6、在Pregel计算模型中,图中的每个顶点会对应一个计算单元,下列哪一项不属于计算单元的成员变量?

  • 顶点值(Vertex value):顶点对应的PR值
  • 出射边(Out edge):只需要表示一条边,可以不取值
  • 消息(Message):传递的消息
  • 入射边(Iut edge):只需要表示一条边,可以不取值

7、 下列关于数据可视化的描述,哪个是错误的?

(A) 数据可视化是指将大型数据集中的数据以图形图像形式表示

(B) 利用数据分析和开发工具发现其中未知信息的处理过程

(C) 数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示

(D) 将数据的各个属性值以一维数据的形式表示

8、 下列哪个不属于可视化工具?

(A) Google Chart API

(B) D3

(C) Visual.ly

(D) Spark

9、下面关于UserCF算法和ItemCF算法的对比,哪个是错误的?

  • UserCF算法的推荐更偏向社会化:适合应用于新闻推荐、微博话题推荐等应用场景,其推荐结果在新颖性方面有一定的优势
  • ItemCF算法的推荐更偏向于个性化
  • ItemCF随着用户数目的增大,用户相似度计算复杂度越来越高
  • UserCF推荐结果相关性较弱,难以对推荐结果作出解释,容易受大众影响而推荐热门物品

10、下列关于推荐系统的描述,哪一项是错误的?

  • 推荐系统是大数据在互联网领域的典型应用
  • 推荐系统是自动联系用户和物品的一种工具
  • 推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售
  • 推荐系统分为基于物品的协同过滤和基于商家的协同过滤

 

二、多选题

  • 流数据具有以下哪些特征?
  • 数据快速持续到达,潜在大小也许是无穷无尽的
  • 数据来源众多,格式复杂
  • 注重数据的整体价值,不过分关注个别数据
  • 系统可以控制将要处理的新到达的数据元素的顺序
  • 下列关于批量计算和实时计算的说法,正确的有?
  • 批量计算:充裕时间处理静态数据,如Hadoop
  • 静态数据不适合采用批量计算,因为它不适合用传统的关系模型建模
  • 流数据必须采用实时计算
  • 流数据的响应时间一般为秒级,甚至需要毫秒级

3、 企业数据架构的典型形式包括:

(A)传统数据处理架构

(B)大数据Lambda架构

(C)流处理架构

(D)循环处理架构

4、Flink的优势包括:

(A)同时支持高吞吐、低延迟、高性能

(B)同时支持流处理和批处理

(C)支持有状态计算

(D)具有独立的内存管理

5、很多传统的图计算算法都存在以下哪些典型问题?

  • 常常表现出比较差的内存访问局部性
  • 针对单个顶点的处理工作过少
  • 计算过程中伴随着并行度的改变
  • 计算过程简易

6、针对大型图(比如社交网络和网络图)的计算问题,哪些说法是正确的?

  • 为特定的图应用定制相应的分布式实现:通用性不好
  • 基于现有的分布式计算平台进行图计算:在性能和易用性方面往往无法达到最优
  • 使用单机的图算法库,但是,在可以解决的问题的规模方面具有很大的局限性
  • 使用已有的并行图计算系统,但是,对大规模分布式系统非常重要的一些方面(比如容错),无法提供较好的支持

7、 在大数据时代,可视化技术可以支持实现哪些目标?

(A)观测、跟踪数据

(B)分析数据

(C)辅助理解数据

(D)增强数据吸引力

8、 信息图表是信息、数据、知识等的视觉化表达,下列哪个说法正确?

(A)谷歌公司的制图服务接口Google Chart API,可以用来为统计数据并自动生成图片

(B)D3是最流行的可视化库之一,是一个用于网页作图、生成互动图形的JavaScript函数库

(C) ECharts是由百度公司前端数据可视化团队研发的图表库,可以流畅地运行在PC和移动设备上

(D)大数据魔镜是一款优秀的国产数据分析软件,它丰富的数据公式和算法可以让用户真正理解探索分析数据

9、下列哪些属于大数据应用?

  • 推荐系统:为用户推荐相关商品
  • 物流:基于大数据和物联网技术的智能物流
  • 智能交通:利用交通大数据,实现交通实时监控
  • 汽车:无人驾驶汽车,实时采集车辆各种行驶数据和周围环境

10、下列关于推荐系统集群的描述,哪些是正确的?

  • 为了让用户从海量信息中高效地获得自己所需的信息,推荐系统应运而生
  • 推荐系统是大数据在互联网领域的典型应用
  • 推荐系统是自动联系用户和物品的一种工具
  • 推荐系统是利用大数据调整线下门店布局、控制店内人流量

 

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。