书签分享收藏举报版权申诉 / 51

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 笔试 > Chapter14-厦门大学-林子雨-大数据技术原理与应用-第十四章-基于Hadoop的数据仓库Hive(2016年4月6日版本)PPT文件格式下载.ppt

Chapter14-厦门大学-林子雨-大数据技术原理与应用-第十四章-基于Hadoop的数据仓库Hive(2016年4月6日版本)PPT文件格式下载.ppt

文档编号：15476757
上传时间：2022-11-01
格式：PPT
页数：51
大小：3.58MB

《Chapter14-厦门大学-林子雨-大数据技术原理与应用-第十四章-基于Hadoop的数据仓库Hive(2016年4月6日版本)PPT文件格式下载.ppt》由会员分享，可在线阅读，更多相关《Chapter14-厦门大学-林子雨-大数据技术原理与应用-第十四章-基于Hadoop的数据仓库Hive(2016年4月6日版本)PPT文件格式下载.ppt（51页珍藏版）》请在冰豆网上搜索。

Chapter14-厦门大学-林子雨-大数据技术原理与应用-第十四章-基于Hadoop的数据仓库Hive(2016年4月6日版本)PPT文件格式下载.ppt

http:

/基于基于Hadoop的数据仓库的数据仓库Hive（PPT版本号：

版本号：

2016年年4月月6日版本）日版本）大数据技术原理与应用大数据技术原理与应用http:

/厦门大学计算机科学系林子雨课堂内容与教材对应关系说明厦门大学林子雨编著大数据技术原理与应用2015年8月1日人民邮电出版社出版发行第第1版版教材共包含13章内容第一章大数据概述第二章大数据处理架构Hadoop第三章分布式文件系统HDFS第四章分布式数据库HBase第五章NoSQL数据库第六章云数据库第七章MapReduce第八章流计算第九章图计算第十章数据可视化第十一章大数据在互联网领域的应用第十二章大数据在生物医学领域的应用（自学）第十三章大数据的其他应用（自学）2016年新增章节（将加入到第年新增章节（将加入到第2版教材中）版教材中）第第14章基于章基于Hadoop的数据仓库的数据仓库Hive第第15章章Hadoop架构再探讨架构再探讨第第16章章Spark大数据技术原理与应用厦门大学计算机科学系林子雨课堂内容与教材对应关系说明课堂章节课堂章节对应的对应的大数据技术原理与应用大数据技术原理与应用（第（第1版）教材版）教材章节章节第1讲-大数据概述第1章-大数据概述第2讲-大数据处理架构Hadoop第2章-大数据处理架构Hadoop第3讲-分布式文件系统HDFS第3章-分布式文件系统HDFS第4讲-分布式数据库HBase第4章-分布式数据库HBase第5讲-NoSQL数据库第5章-NoSQL数据库第6讲-云数据库第6章-云数据库第7讲-MapReduce第7章-MapReduce第第8讲讲-基于基于Hadoop的数据仓库的数据仓库Hive新增第新增第14章，不在当前第章，不在当前第1版教材版教材中，将放中，将放入第入第2版版教材教材第第9讲讲-Hadoop架构再探讨架构再探讨新增第新增第15章，不在当前第章，不在当前第1版教材中，将放入第版教材中，将放入第2版教材版教材第10讲-流计算第8章-流计算第第11讲讲-Spark新增第新增第16章，不在当前第章，不在当前第1版教材中，将放入第版教材中，将放入第2版教材版教材第12讲-图计算第9章-图计算第13讲-数据可视化第10章-数据可视化第14讲-大数据在互联网领域的应用第11章-大数据在互联网领域的应用备注：

教材的第12章大数据在生物医学领域的应用和第13章大数据在其他领域的应用，为自学章节，不录制视频大数据技术原理与应用厦门大学计算机科学系林子雨厦门大学计算机科学系2016年版林子雨林子雨厦门大学计算机科学系厦门大学计算机科学系E-mail:

/基于基于Hadoop的数据仓库的数据仓库Hive（第（第1版教材出版后的版教材出版后的2016年新增章节）年新增章节）大数据技术原理与应用大数据技术原理与应用http:

/厦门大学计算机科学系林子雨中国高校大数据课程公共服务平台http:

/厦门大学计算机科学系林子雨提纲14.1概述概述14.2Hive系统架构系统架构14.3Hive工作原理工作原理14.4HiveHA基本原理基本原理14.5Impala14.6Hive编程实践编程实践欢迎访问大数据技术原理与应用教材官方网站：

/林子雨编著，人民邮电出版社ISBN:

978-7-115-39287-9大数据技术原理与应用厦门大学计算机科学系林子雨14.1概述14.1.1数据仓库概念14.1.2传统数据仓库面临的挑战14.1.3Hive简介14.1.4Hive与Hadoop生态系统中其他组件的关系14.1.5Hive与传统数据库的对比分析14.1.6Hive在企业中的部署和应用大数据技术原理与应用厦门大学计算机科学系林子雨14.1.1数据仓库概念数据仓库（DataWarehouse）是一个面向主题的（SubjectOriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（TimeVariant）的数据集合，用于支持管理决策。

图14-1数据仓库的体系结构大数据技术原理与应用厦门大学计算机科学系林子雨

（1）无法满足快速增长的海量数据存储需求

（2）无法有效处理不同类型的数据（3）计算和处理能力不足14.1.2传统数据仓库面临的挑战大数据技术原理与应用厦门大学计算机科学系林子雨14.1.3Hive简介Hive是一个构建于Hadoop顶层的数据仓库工具支持大规模数据存储、分析，具有良好的可扩展性某种程度上可以看作是用户编程接口，本身不存储和处理数据依赖分布式文件系统HDFS存储数据依赖分布式并行计算模型MapReduce处理数据定义了简单的类似SQL的查询语言HiveQL用户可以通过编写的HiveQL语句运行MapReduce任务可以很容易把原来构建在关系数据库上的数据仓库应用程序移植到Hadoop平台上是一个可以提供有效、合理、直观组织和使用数据的分析工具大数据技术原理与应用厦门大学计算机科学系林子雨14.1.3Hive简介Hive具有的特点非常适用于数据仓库采用批处理方式处理海量数据采用批处理方式处理海量数据Hive需要把HiveQL语句转换成MapReduce任务进行运行数据仓库存储的是静态数据，对静态数据的分析适合采用批处理方式，不需要快速响应给出结果，而且数据本身也不会频繁变化提供适合数据仓库操作的工具提供适合数据仓库操作的工具Hive本身提供了一系列对数据进行提取、转换、加载（ETL）的工具，可以存储、查询和分析存储在Hadoop中的大规模数据这些工具能够很好地满足数据仓库各种应用场景大数据技术原理与应用厦门大学计算机科学系林子雨14.1.4Hive与Hadoop生态系统中其他组件的关系Hive依赖于依赖于HDFS存储数据存储数据Hive依赖于依赖于MapReduce处理数据处理数据在某些场景下在某些场景下Pig可以作为可以作为Hive的替代工具的替代工具HBase提供数据的实时访问提供数据的实时访问大数据技术原理与应用厦门大学计算机科学系林子雨14.1.5Hive与传统数据库的对比分析与传统数据库的对比分析Hive在很多方面和传统的关系数据库类似，但是它的底层依赖的是HDFS和MapReduce，所以在很多方面又有别于传统数据库对比比项目目HiveHive传统数据数据库数据插入支持批量导入支持单条和批量导入数据更新不支持支持索引支持支持分区支持支持执行延迟高低扩展性好有限大数据技术原理与应用厦门大学计算机科学系林子雨14.1.6Hive在企业中的部署和应用在企业中的部署和应用图企业中一种常见的大数据分析平台部署框架1.Hive在企业大数据分析平台中的应用在企业大数据分析平台中的应用大数据技术原理与应用厦门大学计算机科学系林子雨14.1.6Hive在企业中的部署和应用在企业中的部署和应用图Facebook的数据仓库架构基于Oracle的数据仓库系统已经无法满足激增的业务需求Facebook公司开发了数据仓库工具Hive，并在企业内部进行了大量部署2.Hive在在Facebook公司中的应用公司中的应用大数据技术原理与应用厦门大学计算机科学系林子雨14.2Hive系统架构图Hive系统架构用户接口模块包括CLI、HWI、JDBC、ODBC、ThriftServer驱动模块（Driver）包括编译器、优化器、执行器等，负责把HiveSQL语句转换成一系列MapReduce作业元数据存储模块（Metastore）是一个独立的关系型数据库（自带derby数据库，或MySQL数据库）大数据技术原理与应用厦门大学计算机科学系林子雨14.3Hive工作原理14.3.1SQL语句转换成MapReduce作业的基本原理14.3.2Hive中SQL查询转换成MapReduce作业的过程大数据技术原理与应用厦门大学计算机科学系林子雨14.3.1SQL语句转换成MapReduce的基本原理1.join的实现原理的实现原理1是表User的标记位2是表Order的标记位1和2是uid的值大数据技术原理与应用厦门大学计算机科学系林子雨14.3.1SQL语句转换成MapReduce的基本原理2.groupby的实现原理的实现原理存在一个分组（GroupBy）操作，其功能是把表Score的不同片段按照rank和level的组合值进行合并，计算不同rank和level的组合值分别有几条记录：

selectrank,level,count（*）asvaluefromscoregroupbyrank,level大数据技术原理与应用厦门大学计算机科学系林子雨14.3.2Hive中SQL查询转换成MapReduce作业的过程当用户向Hive输入一段命令或查询时，Hive需要与Hadoop交互工作来完成该操作：

驱动模块接收该命令或查询编译器对该命令或查询进行解析编译由优化器对该命令或查询进行优化计算该命令或查询通过执行器进行执行大数据技术原理与应用厦门大学计算机科学系林子雨14.3.2Hive中SQL查询转换成MapReduce作业的过程第1步：

由Hive驱动模块中的编译器对用户输入的SQL语言进行词法和语法解析，将SQL语句转化为抽象语法树的形式第2步：

抽象语法树的结构仍很复杂，不方便直接翻译为MapReduce算法程序，因此，把抽象语法书转化为查询块第3步：

把查询块转换成逻辑查询计划，里面包含了许多逻辑操作符第4步：

重写逻辑查询计划，进行优化，合并多余操作，减少MapReduce任务数量第5步：

将逻辑操作符转换成需要执行的具体MapReduce任务第6步：

对生成的MapReduce任务进行优化，生成最终的MapReduce任务执行计划第7步：

由Hive驱动模块中的执行器，对最终的MapReduce任务进行执行输出大数据技术原理与应用厦门大学计算机科学系林子雨14.3.2Hive中SQL查询转换成MapReduce作业的过程当启动MapReduce程序时，Hive本身是不会生成MapReduce算法程序的需要通过一个表示“Job执行计划”的XML文件驱动执行内置的、原生的Mapper和Reducer模块Hive通过和JobTracker通信来初始化MapReduce任务，不必直接部署在JobTracker所在的管理节点上执行通常在大型集群上，会有专门的网关机来部署Hive工具。

网关机的作用主要是远程操作和管理节点上的JobTracker通信来执行任务数据文件通常存储在HDFS上，HDFS由名称节点管理几点说明：

几点说明：

大数据技术原理与应用厦门大学计算机科学系林子雨14.4HiveHA基本原理基本原理图HiveHA基本原理问题：

在实际应用中，Hive也暴露出不稳定的问题解决方案：

HiveHA（HighAvailability）由多个Hive实例进行管理的，这些Hive实例被纳入到一个资源池中，并由HAProxy提供一个统一的对外接口对于程序开发人员来说，可以把它认为是一台超强“Hive大数据技术原理与应用厦门大学计算机科学系林子雨14.5Impala14.5.1Impala简介14.5.2Impala系统架构14.5.3Impala查询执行过程14.5.4Impala与Hive的比较大数据技术原理与应用厦门大学计算机科学系林子雨14.5.1Impala简介Impala是由Cloudera公司开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase上的PB级大数据，在性能上比Hive高出330倍I