欢迎来到冰豆网! | 帮助中心 分享价值,成长自我!
冰豆网
全部分类
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • 党团工作>
  • ImageVerifierCode 换一换
    首页 冰豆网 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    大数据技术原理与应用林子雨版课后习题复习资料.docx

    • 资源ID:1083059       资源大小:562.03KB        全文页数:35页
    • 资源格式: DOCX        下载积分:12金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要12金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据技术原理与应用林子雨版课后习题复习资料.docx

    1、大数据技术原理与应用林子雨版课后习题复习资料第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。 信息化浪潮发生时间标志解决问题代表公司第一次浪潮1980年前后个人计算机信息处理、苹果、微软、联想、戴尔、惠普等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、XX、腾讯等第三次浪潮2010年前后物理网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业2. 试述数据产生方式经历的几个阶段答: 运营式系统阶段,用户原创内容阶段,感知式系统阶段。3. 试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。4. 试述大数据时代的“数据爆炸”的特性答:大数据时代的

    2、“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。5. 数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。6. 试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。7. 大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分

    3、析。8. 举例说明大数据的基本应用答:领域大数据的应用金融行业大数据在高频交易、社区情绪分析和信贷风险分析三大金融创新领域发挥重要作用。汽车行业利用大数据和物联网技术的五人驾驶汽车,在不远的未来将走进我们的日常生活互联网行业借助于大数据技术,可以分析客户行为,进行商品推荐和有针对性广告投放个人生活大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周全的个性化服务。9. 举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10. 大数据产业包含哪些关键技术。答:基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。1

    4、1. 定义并解释以下术语:云计算、物联网答: 云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种资源。 物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。12. 详细阐述大数据、云计算和物联网三者之间的区别与联系。大数据、云计算和物联网的区别大数据、云计算和物联网的联系大数据侧重于海量数据的存储、处理与分析,海量数据中发现价值,服务于生产和生活;云计算本质上皆在整合和优化各种资源并通

    5、过网络已服务的方法,廉价地提供给用户;物联网的发展目标是实现呜呜向量,应用创新是物联网的核心从整体来看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式存储和管理系统提供了海量数据的存储和管理能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。物联网的传感器源源不断的产生大量数据,构成了大数据的重要数据来源,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。第二章1. 试述和谷歌的、等技术之间的关系答:的核心是分布式文件系统和,是谷歌文件系统的开源实现,是针对谷歌的开源实现。2. 试述具有哪些特性。答:高

    6、可靠性,高效性,高可扩展性,高容错性,成本低,运行在平台,支持多种编程语言3. 试述在各个领域的应用情况。答:2007年,雅虎在总部建立了M45一个包含了4000个处理器和1.5容量的集群系统;主要将平台用于日志处理,推荐系统和数据仓库等方面;XX主要使用于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。4. 试述的项目结构以及每个部分的具体功能。答:是为其他子项目提供支持的常用工具,主要包括文件系统、和串行化库是为的子项目,用于数据序列化的系统,提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。是

    7、项目的两个核心之一,它是针对谷歌文件系统的开源实现。是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用作为其底层数据存储。是针对谷歌的开源实现,用于大规模数据集的并行运算。是针对谷歌的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。是一个基于的数据仓库工具,可以用于对文件中的数据集进行数据整理、特殊查询和分布存储。是一种数据流语言和运行环境,适合于使用和平台上查询大型半结构化数据集。可以改进数据的互操作性,主要用来在H大哦哦哦配合关系数据库之间交换数据。是一个开源的、用于监控大型分布式系统的数据

    8、收集系统,可以将各种类型的数据收集成适合处理的文件,并保存在中供进行各种 操作。第三章1试述分布式文件系统设计的需求。设计需求含义的实现情况透明性具备访问透明性、位置透明性、性能、和伸缩透明性只能提供一定程度的访问透明性,完全支持位置透明性、性能和伸缩透明性并发控制客户端对于文件的读写不应该影响其他客户端对同一个文件的读写机制非常简单,任何时候都只允许有一个程序写入某个文件文件复制一个文件可以拥有不同位置的多个副本采用了多副本机制硬件和操作系统的异构性可以在不同的操作系统和计算机上实现同样的客户端和服务端程序采用语言开发,具有很好的跨平台能力可伸缩性支持节点的动态加入或退出建立在大规模廉价机器

    9、上的分布式文件系统集群,具有很好的伸缩性容错保证文件服务在客户端或者服务端出现问题的时候能正常使用具有多副本机制和故障自动检测、恢复机制安全保证系统的安全性安全性较弱2分布式文件系统是如何实现较高水平扩展的?分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”( )或者也被称为“名称结点”(),另一类叫“从节点”( )或者也被称为“数据节点”()3试述中的块和普通文件系统中的块的区别。答:在传统的文件系统中,为了提高磁盘读写效率,一般以数据块为单位,恶如不是以字节为单位。中的块,默认一个块大小为64,而中的文件会被拆分成多个块,每个块作为独立的单元进行

    10、存储。在块的大小的设计上明显要大于普通文件系统。4试述中的名称节点和数据节点的具体功能。答:名称节点负责管理分布式文件系统系统的命名空间,记录分布式文件系统中的每个文件中各个块所在的数据节点的位置信息;数据节点是分布式文件系统的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并向名称节点定期发送自己所存储的块的列表。 显示指定的文件的详细信息 将指定的文件的内容输出到标准输出 创建指定的文件夹 复制指定的文件到本地文件系统指定的文件或文件夹。选项复制校验失败的文件。使用选项复制文件以及信息。 从本地文件系统中复制指定的单个或多个源文件到指定的目标文件系统

    11、中。也支持从标准输入()中读取输入写入目标文件系统。 删除指定的文件夹及其的所有文件第四章1. 试述在体系架构中与其他组成部分的相互关系。答: 利用 来处理中的海量数据,实现高性能计算;利用作为协同服务,实现稳定服务和失败恢复;使用作为高可靠的底层存储,利用廉价集群提供海量数据存储能力; 为的底层数据导入功能,和为提供了高层语言支持,是的开源实现。2. 请阐述和的底层技术的对应关系答:项目文件存储系统海量数据处理 协同服务管理3. 请阐述和传统关系数据库的区别答:区别传统关系数据库数据类型关系模型数据模型数据操作插入、删除、更新、查询、多表连接插入、查询、删除、清空,无法实现表与表之间关联存储

    12、模式基于行模式存储,元组或行会被连续地存储在磁盘也中基于列存储,每个列族都由几个文件保存,不同列族的文件是分离的数据索引针对不同列构建复杂的多个索引只有一个行键索引数据维护用最新的当前值去替换记录中原来的旧值更新操作不会删除数据旧的版本,而是生成一个新的版本可伸缩性很难实现横向扩展,纵向扩展的空间也比较有限轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩4. 有哪些类型的访问接口?答:提供了 , , , , , 等访问接口。5. 请以实例说明数据模型。答:201505001 201505002 201505003 163行键单元格单元格有两个时间戳1和2每个时间戳对应一个数据版本6. 分

    13、别解释中行键、列键和时间戳的概念(1) 行键是唯一的,在一个表里只出现一次,否则就是在更新同一行,行键可以是任意的字节数组。(2) 列族需要在创建表的时候就定义好,数量也不宜过多。列族名必须由可打印字符组成,创建表的时候不需要定义好列。(3) 时间戳,默认由系统指定,用户也可以显示设置。使用不同的时间戳来区分不同的版本。7. 请举个实例来阐述的概念视图和物理视图的不同数据概念视图行键时间戳列族列族“”T5”T3”“”T3”.”T2”.”T1”.”数据物理视图行键时间戳列族“”T5”T4”行键时间戳列族“”T3”.”T2”.”T1”.”在的概念视图中,一个表可以视为一个稀疏、多维的映射关系。在物

    14、理视图中,一个表会按照属于同一列族的数据保存在一起8. 试述各功能组建及其作用(1)库函数:链接到每个客户端;(2)一个主服务器:主服务器主要负责表和的管理工作;(3)许多个服务器:服务器是中最核心的模块,负责维护分配给自己的,并响应用户的读写请求9. 请阐述的数据分区机制。答: 采用分区存储,一个大的表会被分拆许多个,这些会被分发到不同的服务器上实现分布式存储。10. 中的分区是如何定位的。通过构建的映射表的每个条目包含两项内容,一个是 标识符,另一个是服务器标识,这个条目就标识和服务器之间的对应关系,从而就可以知道某个被保存在哪个服务器中。11. 试述的三层结构中各层次的名称和作用。层次名称作用第一层文件记录了表的位置信息第二层表记录了.表的位置信息表只能有一个。通过表,就可以访问.表中的数据第三层.表记录了用户数据表的位置信息,.表可以有多个,保存了中


    注意事项

    本文(大数据技术原理与应用林子雨版课后习题复习资料.docx)为本站会员主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2022 冰点文档网站版权所有

    经营许可证编号:鄂ICP备2022015515号-1

    收起
    展开