书签分享收藏举报版权申诉 / 38

立即下载加入VIP,免费下载

当前位置：首页 > 考试认证 > IT认证 > 大数据技术与应用基础-第章分布式数据库HBase数据仓库工具Hive.pptx

大数据技术与应用基础-第章分布式数据库HBase数据仓库工具Hive.pptx

文档编号：1422961
上传时间：2022-10-22
格式：PPTX
页数：38
大小：2.24MB

《大数据技术与应用基础-第章分布式数据库HBase数据仓库工具Hive.pptx》由会员分享，可在线阅读，更多相关《大数据技术与应用基础-第章分布式数据库HBase数据仓库工具Hive.pptx（38页珍藏版）》请在冰豆网上搜索。

大数据技术与应用基础-第章分布式数据库HBase数据仓库工具Hive.pptx

大数据技术与应用基础,21世纪高等院校“云计算和大数据”人才培养规划教材,第6章,分布式数据库Hbase,能力,CAPACITY,要求,了解HBase包含3个重要组件。

熟悉HBase的基本应用。

掌握HBase的特点。

HBase接口,HBase简介,安装HBase集群,HBaseShell,HBase综合实例,HBaseAPI,一、HBase简介,HBase（HadoopDatabase）是一个开源的、面向列（Column-Oriented）、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。

HBase包含3个重要组件：

ZooKeeper、HMaster和HRegionServer。

ZooKeeper为整个HBase集群提供协助的服务（信息传输），HMaster主要用于监控和操作集群中的所有RegionServer，HRegionServer主要用于服务和管理分区（regions）。

Hbase简介,Hbase接口,安装HBase集群,HBaseShell,HBase综合实例,HBaseAPI,二、Hbase接口,HBase集群访问可以有多种方式，不同方式的使用场景不同，HBase的访问接口如下：

1.NativeJavaAPI2.HBaseShellHBaseShell是HBase的命令行工具，是最简单的接口，适合HBase管理使用。

3.ThriftGateway4.RESTGateway5.PIG可以使用PigLatin流式编程语言来操作HBase中的数据，其本质是编译成MapReduceJob来处理HBase表数据，适合做数据统计。

6.HiveHive0.7版本中添加了HBase的支持，可以使用类似SQL的语言HQL来访问HBase，其本质类似Pig，把脚本编译成MapReduceJob来处理HBase表数据。

HBase接口,安装HBase集群,HBase简介,HBaseShell,HBase综合实例,HBaseAPI,三、安装Hbase集群,系统环境：

Hadoop2.6.0分布式系统基础架构Javajdk1.7一种面向对象的编程语言ZooKeeper3.4.6分布式应用程序协调服务Hbase0.98.21分布式、面向列的开源数据库Ubuntu14.04一种Linux操作系统安装ZooKeeper：

在主节点上下载安装ZooKeeper。

hadoopmaster:

$wgethttp:

/,三、安装Hbase集群,在zoo.cfg中加入如下参数，如图6-3所示。

-server.0=master:

2888:

3888注释：

0为master节点的myid-server.1=slave1:

2888:

3888注释：

1为slave1节点的myid-server.2=slave2:

2888:

3888注释：

2为slave2节点的myid将主节点的ZooKeeper安装目录分发到两个从节点slave1，slave2上。

将$ZOOKEEPER_HOME/bin添加到Linux用户的环境变量文件.bashrc中。

在各个节点上通过zkServer.shstart命令启动ZooKeeper服务，命令如下zkServer.shstart/启动ZooKeeper服务zkServer.shstatus/查看节点ZooKeeper服务状态，服务状态分为leader,follower,三、安装Hbase集群,安装Hbase：

在主节点上通过下面命令下载Hbase到Linux用户的家目录中。

wgethttp:

/hbase.rootdirhdfs:

/master:

9000/hbasehbase.zookeeper.quorummaster,slave1,slave2hbase.cluster.distributedtruehbase.zookeeper.property.dataDir/hadoop/zookeeper/data,三、安装Hbase集群,修改HBase根目录下conf文件夹中regionservers文件，内容如下：

slave1slave2修改HBase根目录下conf文件夹中hbase-env.sh文件，添加JKD的配置。

内容如下：

exportJAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64将主节点的HBase安装目录分发到两个从节点slave1，slave2上。

将$HBase_HOME/bin目录添加到用户的环境变量文件.bashrc中，如图在各个节点上通过命令start-hbase.sh启动HBase，可以通过命令jps查看结果。

如右图。

HBase接口,HBaseShell,安装HBase集群,HBase简介,HBase综合实例,HBaseAPI,四、HbaseShell,首先要确保Hadoop集群是开启的1.在Linux命令行上执行hbaseshell命令进入HBaseShell。

hadoopmaster:

$hbaseshellVersion1.0.3,rf1e1312f9790a7c40f6a4b5a1bab2ea1dd559890,TueJan1919:

26:

53PST2016hbase（main）:

001:

02.新建user表。

hbase（main）:

001:

0createuser,infomation0row（s）in1.2680seconds=Hbase:

Table-userhbase（main）:

002:

03.导入user表中的数据。

hbase（main）:

004:

0putuser,001,infomation:

name,lihao0row（s）in0.0270secondsrow（s）in0.0160seconds,四、HbaseShell,hbase（main）:

005:

0putuser,001,infomation:

age,220row（s）in0.0120secondshbase（main）:

007:

0putuser,002,infomation:

name,yujianzhong0row（s）in0.0110secondshbase（main）:

008:

0putuser,002,infomation:

age,300row（s）in0.0160secondshbase（main）:

009:

0putuser,003,infomation:

name,jixu0row（s）in0.0140secondshbase（main）:

010:

0putuser,003,infomation:

age,36,4.查看user表中的数据。

hbase（main）:

011:

0scanuser5.查看user表的描述。

hbase（main）:

012:

0describeuser6.删除user表。

hbase（main）:

013:

0disableuser,HBase接口,HBaseAPI,安装HBase集群,HBaseShell,HBase综合实例,HBase简介,五、HbaseAPI,查看表：

以建表插入数据为例，参考书中P106页的程序代码,查看表中的数据：

HBase接口,HBase综合实例,安装HBase集群,HBaseShell,HBase简介,HBaseAPI,六、HBase综合实例,首先介绍HBase的相关API：

（1）HbaseConfiguration关系：

org.apache.hadoop.hbase.HBaseConfiguration作用：

通过此类可以对HBase进行配置

（2）HBaseAdmin关系：

org.apache.hadoop.hbase.client.HBaseAdmin作用：

提供一个接口来管理HBase数据库中的表信息。

它提供创建表、删除表等方法。

（3）HTableDescriptor关系：

org.apache.hadoop.hbase.client.HTableDescriptor作用：

包含了表的名字及其对应列族。

（4）HColumnDescriptor关系：

org.apache.hadoop.hbase.client.HColumnDescriptor作用：

维护关于列的信息。

（5）Htable关系：

org.apache.hadoop.hbase.client.HTable作用：

用户与HBase表进行通信。

（6）Put关系：

org.apache.hadoop.hbase.client.Put作用：

用于对单个行执行添加操作（7）Get关系：

org.apache.hadoop.hbase.client.Get作用：

用于获取单个行的相关信息（8）Result关系：

org.apache.hadoop.hbase.client.Result作用：

存储Get或Scan操作后获取的单行值。

五、HbaseAPI,代码运行结果如右图,本课将用一个Hbase综合实例来介绍如何用HbaseAPI来创建表，向表中添加数据，获取指定主键的cell，查看指定表的数据。

请参考书中P111页的程序代码。

进入hbaseshell查看执行结果,大数据技术与应用基础,21世纪高等院校“云计算和大数据”人才培养规划教材,第7章,数据仓库工具Hive,人民邮电出版社,能力,CAPACITY,要求,了解大数据仓库Hive的原理和基本概念。

掌握熟悉简单的Hive命令。

Hive接口实战,Hive简介,Hive复杂语句实战,Hive综合实例,一、Hive简介,Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。

把海量数据存储于Hadoop文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用HQL（类SQL）语言对这些数据进行自动化管理和处理。

Hive经过对语句进行解析和转换，最终生成一系列基于Hadoop的map/reduce任务，通过执行这些任务完成数据处理。

Hive诞生于Facebook的日志分析需求，面对海量的结构化数据，Hive以较低的成本完成了以往需要大规模数据库才能完成的任务，并且学习门槛相对较低，应用开发灵活而高效。

Hive简介,Hive接口实战,Hive复杂语句实战,Hive综合实例,二、Hive接口实战,Ubuntu16.04server64JDK1.8.0hadoop2.6.0Hive1.2.1接口实战详细步骤如下：

环境配置,

（1）构造所使用的实验文件visits_data.txt数据。

Visits_data.txt数据包含6列，分别对应名字，姓，访问时间，计划访问时间，地点，备注，使用“t”分隔。

（2）查看实验文件visits.hive数据，如下图。

图中代码是Hive中新建表的代码，使用此代码即可建立Hive中的表。

（3）使用如下Hive命令调用文件visits.hive里的代码，建立Hive的people_visits表，如下图。

hive-f/opt/visits.hive,二、Hive接口实战,（4）使用如下Hiveshell命令行，命令如下，可以看到刚才建立的表，以及表的描述。

hiveshowtables;hivedescribepeople_visits;（5）插入数据。

使用如下查询命令查看表中的数据如下图。

可以看到表中没有数据。

hiveselect*frompeople_visitslimit10;使用hadoopfs命令，拷贝visits_data.txt到HDFS的/usr/hive/warehouse/people_visits目录中，代码和结果图如下所示。

hadoopfs-put/opt/visits_data.txt/usr/hive/warehouse/people_visitshadoopfs-ls/

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据技术应用基础分布式数据库 HBase 数据仓库工具 Hive

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：大数据技术与应用基础-第章分布式数据库HBase数据仓库工具Hive.pptx
链接地址：https://www.bdocx.com/doc/1422961.html

大数据技术与应用基础-第章分布式数据库HBase数据仓库工具Hive.pptx

热门标签