《大数据导论》20春期末考核答案.docx
- 文档编号:11842045
- 上传时间:2023-04-05
- 格式:DOCX
- 页数:11
- 大小:18.73KB
《大数据导论》20春期末考核答案.docx
《《大数据导论》20春期末考核答案.docx》由会员分享,可在线阅读,更多相关《《大数据导论》20春期末考核答案.docx(11页珍藏版)》请在冰豆网上搜索。
《大数据导论》20春期末考核答案
《大数据导论》20春期末考核
总分:
100分时间:
0秒SHOWGO
答题中
一、单选题共10题,20分
1
2分
选项:
D<->值:
数据不统一
大数据的特点不包含
A数据体量大
B价值密度高
C处理速度快
D数据不统一
2
2分
选项:
B<->值:
平台即服务
PaaS是()的简称
A软件即服务
B平台即服务
C基础设施即服务
D硬件即服务
3
2分
选项:
C<->值:
基础设施即服务
IaaS是()的简称
A软件即服务
B平台即服务
C基础设施即服务
D硬件即服务
4
2分
选项:
B<->值:
关联规则挖掘
购物篮问题是的典型案例
A数据变换
B关联规则挖掘
C数据分类
5
2分
选项:
A<->值:
IaaS
基础设施即服务的英文简称是
AIaaS
BPaaS
CSaaS
6
2分
选项:
D<->值:
重复数据记录处理
数据清洗的方法不包括
A缺失值处理
B噪声数据清除
C一致性检查
D重复数据记录处理
7
2分
选项:
D<->值:
仅需一种数据支持方式即可
以下哪项不是数据可视化工具的特性()
A实时性
B简单操作
C更丰富的展现
D仅需一种数据支持方式即可
8
2分
选项:
A<->值:
Leaflet
下列哪个工具常用来开发移动友好地交互地图()
ALeaflet
BVisual.ly
CBPizzaPieCharts
DGephi
9
2分
选项:
B<->值:
专为数据存储而设计构建的网络
SAN是一种()
A存储设备
B专为数据存储而设计构建的网络
C光纤交换机
DHBA
10
2分
选项:
B<->值:
64MB
GFS中的文件切分成()的块进行存储
A32MB
B64MB
C128MB
D1G
二、多选题共10题,20分
1
2分
选项:
D<->值:
数据规约选项:
C<->值:
数据变换选项:
B<->值:
数据集成选项:
A<->值:
数据清洗
数据预处理的过程主要是
A数据清洗
B数据集成
C数据变换
D数据规约
2
2分
选项:
D<->值:
变化快选项:
C<->值:
维数高选项:
B<->值:
数据量大
大数据时代预测人类移动行为的数据特点是
A多样化
B数据量大
C维数高
D变化快
3
2分
选项:
C<->值:
曲线图选项:
B<->值:
饼状图选项:
A<->值:
柱状图
下列属于传统统计学展示方法的是()
A柱状图
B饼状图
C曲线图
D网络图
4
2分
选项:
C<->值:
XX大脑。
选项:
B<->值:
数据工厂选项:
A<->值:
开放云
XX大数据引擎主要包含三大组件()
A开放云
B数据工厂
CXX大脑。
5
2分
选项:
C<->值:
离群点分析选项:
B<->值:
回归选项:
A<->值:
分箱
去除噪声使得数据光滑的技术主要有:
A分箱
B回归
C离群点分析
6
2分
选项:
D<->值:
成本问题选项:
C<->值:
安全问题选项:
B<->值:
延迟问题选项:
A<->值:
容量问题
大数据存储的特点与挑战有()
A容量问题
B延迟问题
C安全问题
D成本问题
7
2分
选项:
D<->值:
医疗器械研发选项:
C<->值:
临床决策支持选项:
B<->值:
慢性病健康管理选项:
A<->值:
流行性疾病预防
大数据在医疗中的应用有()
A流行性疾病预防
B慢性病健康管理
C临床决策支持
D医疗器械研发
8
2分
选项:
D<->值:
健康管理/社交网络选项:
C<->值:
费用报销/利用率选项:
B<->值:
临床医疗/实验室数据选项:
A<->值:
制药企业/生命科学
医疗大数据的来源主要包括()
A制药企业/生命科学
B临床医疗/实验室数据
C费用报销/利用率
D健康管理/社交网络
9
2分
选项:
C<->值:
规则性分析选项:
B<->值:
预测性分析s选项:
A<->值:
描述性分析
数据分析的类型根据数据分析深度可以分为()
A描述性分析
B预测性分析s
C规则性分析
10
2分
选项:
B<->值:
流处理选项:
A<->值:
批处理
数据处理的两种方法是,
A批处理
B流处理
C单个处理
D交叉处理
三、判断题共15题,30分
1
2分
选项:
T<->值:
对
所有关系型数据中的数据全部为结构化数据。
半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。
A对
B错
2
2分
选项:
T<->值:
对
关联分析是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程。
A对
B错
3
2分
选项:
T<->值:
对
数据的大量聚集,使得黑客一次成功的攻击能够获得更多的数据,无形中降低了黑客的进攻成本,增加了“收益率“。
A对
B错
4
2分
选项:
T<->值:
对
数据隐私和安全是大数据发展面临的挑战
A对
B错
5
2分
选项:
T<->值:
对
用户可以感知不同属性之间的相关性,过滤掉噪声和不相关的轨迹,用于进一步调查有趣的案例。
分析人员可以交互式地逐步优化设置以改进结果。
A对
B错
6
2分
选项:
T<->值:
对
在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。
只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。
A对
B错
7
2分
选项:
T<->值:
对
频繁项集的子集是频繁项集,非频繁项集的超集是非频繁项集。
A对
B错
8
2分
选项:
T<->值:
对
Twitter作为主流社交网络平台,不仅仅是一个海量公共数据集,它还是一个带有时间刻度的海量公共数据集——用于捕捉特定时间中(在一些情况下,也是在特定空间中)数百万人关于所有主题事项的想法。
A对
B错
9
2分
选项:
T<->值:
对
Spark的亮点是充分利用内存承载工作集,而且能保证容错。
A对
B错
10
2分
选项:
T<->值:
对
Apriori算法扫描数据库的次数等于最大频繁项集的项数。
A对
B错
11
2分
选项:
T<->值:
对
高质量的数据是能够满足应用需求的数据。
A对
B错
12
2分
选项:
T<->值:
对
离群点检测的任务是识别特征显著不同于其他数据的观测值
A对
B错
13
2分
选项:
T<->值:
对
数据分析是大数据发展面临的挑战
A对
B错
14
2分
选项:
T<->值:
对
XX地图春节人口迂徙大数据.在业界首次实现了全程、动态、即时直观地展现中国春节前后人口大迁徙的轨迹与特征。
A对
B错
15
2分
选项:
T<->值:
对
用一个函数拟合数据来光滑数据称为回归。
A对
B错
四、简答题共2题,12分
1
6分
简述云计算的体系架构分层及每层的含义。
云计算可以按需提供弹性资源,它的表现形式是一系列服务的集合。
结合当前云计算的应用与研究,其体系架构可分为核心服务、服务管理、用户访问接口三层。
1)核心服务层将硬件基础设施、软件运行环境、应用程序抽象成服务,这些服务具有可靠性强、可用性高、规模可伸缩等特点,满足多样化的应用需求。
2)服务管理层为核心服务提供支持,进一步确保核心服务的可靠性、可用性与安全性。
3)用户访问接口层实现端到云的访问。
简述数据可视化的流程和步骤。
数据可视化是对数据的综合运用,其操作包括数据获取、数据处理、可视化模式和可视化应用4个步骤。
1)数据获取
数据获取的形式多种多样,大致可以分为主动式和被动式两种。
主动式获取是以明确的数据需求为目的,利用相关技术手段主动采集相关数据,如卫星影像、测绘工程等;被动式获取是以数据平台为基础,由数据平台的活动者提供数据来源,如电子商务网站、网络论坛等。
2)数据处理
数据处理是指对原始的数据进行分析、预处理和计算等步骤。
数据处理的目标是保证数据的准确性、可用性等。
3)可视化模式
可视化模式是数据的一种特殊展现形式,常见的可视化模式有标签云、序列分析、网络结构、电子地图等。
可视化模式的选取决定了可视化方案的雏形。
4)可视化应用
可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示,通过观察和人脑分析进行推理和认知,辅助人们发现新知识或者得到新结论。
可视化界面也可以帮助人们进行人与数据的交互,辅助人们完成对数据的迭代计算,通过若干步,数据的计算实验,生产系列化的可视化成果。
五、名词解释共3题,18分
1
6分
聚类分析
聚类分析(Clusteranalysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster),同一个簇中的数据之间存在最大相似性,不同簇之间的数据间存在最大的差异性。
K-MEANS(K-均值)算法是一种划分聚类方法,以k为参数,将n个对象分为k个簇,以使簇(类)内具有较高的相似度,而簇间的相似度最低。
2
6分
云存储
云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新的概念,是一种新兴的网络存储技术。
它是云计算的重要组成部分,也是云计算的重要应用之一。
云存储是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。
6分
NoSQL
NoSQL(NotOnlySQL)泛指非关系型、分布式和不提供ACID的数据库设计模式,它不是单纯地反对关系型数据库,而是强调键值(Key-Value)存储数据库和文档数据库的优点。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据导论 数据 导论 20 期末 考核 答案