大数据技术与应用基础-第章分布式数据库HBase数据仓库工具Hive.pptx
- 文档编号:1422961
- 上传时间:2022-10-22
- 格式:PPTX
- 页数:38
- 大小:2.24MB
大数据技术与应用基础-第章分布式数据库HBase数据仓库工具Hive.pptx
《大数据技术与应用基础-第章分布式数据库HBase数据仓库工具Hive.pptx》由会员分享,可在线阅读,更多相关《大数据技术与应用基础-第章分布式数据库HBase数据仓库工具Hive.pptx(38页珍藏版)》请在冰豆网上搜索。
大数据技术与应用基础,21世纪高等院校“云计算和大数据”人才培养规划教材,第6章,分布式数据库Hbase,能力,CAPACITY,要求,了解HBase包含3个重要组件。
熟悉HBase的基本应用。
掌握HBase的特点。
HBase接口,HBase简介,安装HBase集群,HBaseShell,HBase综合实例,HBaseAPI,一、HBase简介,HBase(HadoopDatabase)是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。
HBase包含3个重要组件:
ZooKeeper、HMaster和HRegionServer。
ZooKeeper为整个HBase集群提供协助的服务(信息传输),HMaster主要用于监控和操作集群中的所有RegionServer,HRegionServer主要用于服务和管理分区(regions)。
Hbase简介,Hbase接口,安装HBase集群,HBaseShell,HBase综合实例,HBaseAPI,二、Hbase接口,HBase集群访问可以有多种方式,不同方式的使用场景不同,HBase的访问接口如下:
1.NativeJavaAPI2.HBaseShellHBaseShell是HBase的命令行工具,是最简单的接口,适合HBase管理使用。
3.ThriftGateway4.RESTGateway5.PIG可以使用PigLatin流式编程语言来操作HBase中的数据,其本质是编译成MapReduceJob来处理HBase表数据,适合做数据统计。
6.HiveHive0.7版本中添加了HBase的支持,可以使用类似SQL的语言HQL来访问HBase,其本质类似Pig,把脚本编译成MapReduceJob来处理HBase表数据。
HBase接口,安装HBase集群,HBase简介,HBaseShell,HBase综合实例,HBaseAPI,三、安装Hbase集群,系统环境:
Hadoop2.6.0分布式系统基础架构Javajdk1.7一种面向对象的编程语言ZooKeeper3.4.6分布式应用程序协调服务Hbase0.98.21分布式、面向列的开源数据库Ubuntu14.04一种Linux操作系统安装ZooKeeper:
在主节点上下载安装ZooKeeper。
hadoopmaster:
$wgethttp:
/,三、安装Hbase集群,在zoo.cfg中加入如下参数,如图6-3所示。
-server.0=master:
2888:
3888注释:
0为master节点的myid-server.1=slave1:
2888:
3888注释:
1为slave1节点的myid-server.2=slave2:
2888:
3888注释:
2为slave2节点的myid将主节点的ZooKeeper安装目录分发到两个从节点slave1,slave2上。
将$ZOOKEEPER_HOME/bin添加到Linux用户的环境变量文件.bashrc中。
在各个节点上通过zkServer.shstart命令启动ZooKeeper服务,命令如下zkServer.shstart/启动ZooKeeper服务zkServer.shstatus/查看节点ZooKeeper服务状态,服务状态分为leader,follower,三、安装Hbase集群,安装Hbase:
在主节点上通过下面命令下载Hbase到Linux用户的家目录中。
wgethttp:
/hbase.rootdirhdfs:
/master:
9000/hbasehbase.zookeeper.quorummaster,slave1,slave2hbase.cluster.distributedtruehbase.zookeeper.property.dataDir/hadoop/zookeeper/data,三、安装Hbase集群,修改HBase根目录下conf文件夹中regionservers文件,内容如下:
slave1slave2修改HBase根目录下conf文件夹中hbase-env.sh文件,添加JKD的配置。
内容如下:
exportJAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64将主节点的HBase安装目录分发到两个从节点slave1,slave2上。
将$HBase_HOME/bin目录添加到用户的环境变量文件.bashrc中,如图在各个节点上通过命令start-hbase.sh启动HBase,可以通过命令jps查看结果。
如右图。
HBase接口,HBaseShell,安装HBase集群,HBase简介,HBase综合实例,HBaseAPI,四、HbaseShell,首先要确保Hadoop集群是开启的1.在Linux命令行上执行hbaseshell命令进入HBaseShell。
hadoopmaster:
$hbaseshellVersion1.0.3,rf1e1312f9790a7c40f6a4b5a1bab2ea1dd559890,TueJan1919:
26:
53PST2016hbase(main):
001:
02.新建user表。
hbase(main):
001:
0createuser,infomation0row(s)in1.2680seconds=Hbase:
Table-userhbase(main):
002:
03.导入user表中的数据。
hbase(main):
004:
0putuser,001,infomation:
name,lihao0row(s)in0.0270secondsrow(s)in0.0160seconds,四、HbaseShell,hbase(main):
005:
0putuser,001,infomation:
age,220row(s)in0.0120secondshbase(main):
007:
0putuser,002,infomation:
name,yujianzhong0row(s)in0.0110secondshbase(main):
008:
0putuser,002,infomation:
age,300row(s)in0.0160secondshbase(main):
009:
0putuser,003,infomation:
name,jixu0row(s)in0.0140secondshbase(main):
010:
0putuser,003,infomation:
age,36,4.查看user表中的数据。
hbase(main):
011:
0scanuser5.查看user表的描述。
hbase(main):
012:
0describeuser6.删除user表。
hbase(main):
013:
0disableuser,HBase接口,HBaseAPI,安装HBase集群,HBaseShell,HBase综合实例,HBase简介,五、HbaseAPI,查看表:
以建表插入数据为例,参考书中P106页的程序代码,查看表中的数据:
HBase接口,HBase综合实例,安装HBase集群,HBaseShell,HBase简介,HBaseAPI,六、HBase综合实例,首先介绍HBase的相关API:
(1)HbaseConfiguration关系:
org.apache.hadoop.hbase.HBaseConfiguration作用:
通过此类可以对HBase进行配置
(2)HBaseAdmin关系:
org.apache.hadoop.hbase.client.HBaseAdmin作用:
提供一个接口来管理HBase数据库中的表信息。
它提供创建表、删除表等方法。
(3)HTableDescriptor关系:
org.apache.hadoop.hbase.client.HTableDescriptor作用:
包含了表的名字及其对应列族。
(4)HColumnDescriptor关系:
org.apache.hadoop.hbase.client.HColumnDescriptor作用:
维护关于列的信息。
(5)Htable关系:
org.apache.hadoop.hbase.client.HTable作用:
用户与HBase表进行通信。
(6)Put关系:
org.apache.hadoop.hbase.client.Put作用:
用于对单个行执行添加操作(7)Get关系:
org.apache.hadoop.hbase.client.Get作用:
用于获取单个行的相关信息(8)Result关系:
org.apache.hadoop.hbase.client.Result作用:
存储Get或Scan操作后获取的单行值。
五、HbaseAPI,代码运行结果如右图,本课将用一个Hbase综合实例来介绍如何用HbaseAPI来创建表,向表中添加数据,获取指定主键的cell,查看指定表的数据。
请参考书中P111页的程序代码。
进入hbaseshell查看执行结果,大数据技术与应用基础,21世纪高等院校“云计算和大数据”人才培养规划教材,第7章,数据仓库工具Hive,人民邮电出版社,能力,CAPACITY,要求,了解大数据仓库Hive的原理和基本概念。
掌握熟悉简单的Hive命令。
Hive接口实战,Hive简介,Hive复杂语句实战,Hive综合实例,一、Hive简介,Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。
把海量数据存储于Hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用HQL(类SQL)语言对这些数据进行自动化管理和处理。
Hive经过对语句进行解析和转换,最终生成一系列基于Hadoop的map/reduce任务,通过执行这些任务完成数据处理。
Hive诞生于Facebook的日志分析需求,面对海量的结构化数据,Hive以较低的成本完成了以往需要大规模数据库才能完成的任务,并且学习门槛相对较低,应用开发灵活而高效。
Hive简介,Hive接口实战,Hive复杂语句实战,Hive综合实例,二、Hive接口实战,Ubuntu16.04server64JDK1.8.0hadoop2.6.0Hive1.2.1接口实战详细步骤如下:
环境配置,
(1)构造所使用的实验文件visits_data.txt数据。
Visits_data.txt数据包含6列,分别对应名字,姓,访问时间,计划访问时间,地点,备注,使用“t”分隔。
(2)查看实验文件visits.hive数据,如下图。
图中代码是Hive中新建表的代码,使用此代码即可建立Hive中的表。
(3)使用如下Hive命令调用文件visits.hive里的代码,建立Hive的people_visits表,如下图。
hive-f/opt/visits.hive,二、Hive接口实战,(4)使用如下Hiveshell命令行,命令如下,可以看到刚才建立的表,以及表的描述。
hiveshowtables;hivedescribepeople_visits;(5)插入数据。
使用如下查询命令查看表中的数据如下图。
可以看到表中没有数据。
hiveselect*frompeople_visitslimit10;使用hadoopfs命令,拷贝visits_data.txt到HDFS的/usr/hive/warehouse/people_visits目录中,代码和结果图如下所示。
hadoopfs-put/opt/visits_data.txt/usr/hive/warehouse/people_visitshadoopfs-ls/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 应用 基础 分布式 数据库 HBase 数据仓库 工具 Hive