大数据时代简析.docx
- 文档编号:2814511
- 上传时间:2022-11-15
- 格式:DOCX
- 页数:8
- 大小:71.66KB
大数据时代简析.docx
《大数据时代简析.docx》由会员分享,可在线阅读,更多相关《大数据时代简析.docx(8页珍藏版)》请在冰豆网上搜索。
大数据时代简析
大数据时代简析
杨雪萍
(华中师范大学信息管理学院湖北武汉430079)
【摘要】随着全球信息量的爆炸式增长,“大数据”成为近几年的热点研究对象,本文将基于已有研究文献,并加之最新研究进展、应用成果,从“大数据”的概念、大数据的分析方法、大数据已应用的成功案例、大数据的挑战与展望等多方面进行全面的深入探讨。
【关键词】大数据;关系数据管理技术;MapReduce技术;HDFS;
1引言
1.1大数据产生背景
在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量正在以极快的速度增长,数据爆炸发生在可以想到的所有设备、应用程序及个体的各个层级上。
根据Gartner公司的研究,全球信息量每年的最低增长率为59%,其中有15%是结构化数据,其余的则由复杂的数据类型组成。
最近的一份报告显示,大数据将带动2012年全球280亿美元的IT支出,到2016年这个数字将超过2300亿美元,2300亿美元几乎是葡萄牙全年的国内生产总值。
并且根据预测,数据量在未来10年内会增长44倍,但与此同时IT专职人员的数量仅会增长1.4倍。
与此同时,在数据呈爆炸性增长的趋势下,IT还不得不承受节约相关资源及预算的重大压力。
整个网络体系架构将面临革命性改变。
最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。
大规模数据主要有以下几个主要来源【1】:
(1)传感器数据(sensordata):
分布在不同地理位置上的传感器,对所处环境进行感知,不断生成数据。
即便对这些数据进行过滤,仅保留部分有效数据,长时间累积的数据量也是非常惊人的;
(2)网站点击流数据(clickstreamdata):
为了进行有效的市场营销和推广,用户在网上的每个点击及其时间都被记录下来;利用这些数据,服务提供商可以对用户存取模式进行仔细的分析,从而提供更加具有针对性的服务;(3)移动设备数据(mobiledevicedata):
通过移动电子设备包括移动电话和PDA、导航设备等,我们可以获得设备和人员的位置、移动、用户行为等信息,对这些信息进行及时的分析,可以帮助我们进行有效的决策,比如交通监控和疏导系统;(4)射频ID数据(RFIDdata):
RFID可以嵌入到产品中,实现物体的跟踪。
一旦RFID得到广泛的应用,将是大量数据的主要来源之一。
1.2大数据概念
维基百科、数据科学家以及一些研究机构和相关厂商,均提出过大数据的概念,虽未形成统一的定义,但是通过分析不同概念发现,它们之间都存在一个共识,即:
大数据的关键是在种类繁多数量庞大的数据中,快速获取信息。
大数据主要有以下四个特征(4V)。
(1)容量大(VolumeBig)。
数据量已经从TB(1012字节)发展至PB乃至ZB,可称海量、巨量乃至超量。
(2)多样性(VariableType)。
数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。
(3)生成速度快(VelocityFast)。
数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可介入。
(4)价值高(ValueHigh)。
以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;3600全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。
2大数据分析技术
随着数据生成的自动化以及数据生成速度的加快,需要处理的数据量急剧膨胀,为了从数据中发现知识并加以利用,指导人们的决策,必须对数据进行深入的分析,而不仅仅是形成报表。
下面介绍三种主要的大数据分析技术关系数据管理技术(RDBMS)、MapReduce技术以及关系数据管理技术和MapReduce的混合架构。
2.1关系数据管理技术
关系数据管理技术(并行数据库)起源于20世纪80年代,经过了将近40年的发展,成为了一门成熟的、同时仍在不断演进的分析技术。
关系数据管理技术的主流应用包括OLTP应用、OLAP应用以及数据仓库等。
SQL语言作为存取关系数据库系统的语言得到了标准化,经过不断扩充,其功能和表达能力不断增强。
其主要采用shared-nothing结构【1】,将关系表在节点间横向划分,并且利用优化器对执行过程进行调度和管理,其目标是高性能和高可用性。
2.1.1关系数据管理技术的优势
并行数据库的最大优势在于性能【2】。
这主要得益于数据库界近几十年的研究成果——许多先进的技术手段及算法,如索引、数据压缩、物化视图、结果缓冲、I/O共享、优化的数据连接等。
但是在大数据时代,如前言所述,数据移动的实现方式将影响其性能。
并行数据库通过SQL向外提供数据访问服务,SQL因其简单易用的特点而被广泛使用。
因此,大多BI工具都支持基于标准SQL的数据交互方式,使得关系数据库能较好地兼容当前多数BI工具。
某些数据库,如IBMDB2还针对一些BI工具进行了优化。
但在大数据分析面前,SQL接口面临巨大挑战。
SQL的优势源于其对底层数据访问的封装,但封装在一定程度上影响了其开放性。
而且并行数据库提供的用户自定义函数大都是基于单数据库实例设计的,从而不能在机群上并行执行,也即意味着传统的实现方式不适合大数据的处理及分析。
而且,在并行数据库中实现用户自定义函数往往需要经过复杂的系统交互,甚至要熟悉数据库的内部结构及系统调用等,从而难以使用。
2.1.2关系数据库的局限
关系数据管理技术在大数据时代将丧失互联网搜索这个机会,其主要原因是关系数据管理系统的扩展性遇到了前所未有的障碍,不能胜任大数据分析的要求。
关系数据管理模型追求的是高度的一致性和正确性,在扩展性、容错性、成本、对异构环境的支持等几项上有所欠缺,当然其最大问题仍旧是扩展性。
面向超大数据的分析需求,纵向扩展(scaleup)系统,即通过增加或者更换CPU、内存、硬盘以及扩展单个节点的能力,终将遇到瓶颈;横向扩展(scaleout)系统,即通过增加计算节点连接成集群,并且改写软件,使之在集群上并行执行,才是经济的解决办法。
使用大规模集群实现大数据的管理和分析,需要应对的挑战很多,其中,系统的可用性摆到了重要的位置。
总结而言,关系数据管理技术扩展性有限【1】主要因为如下几点:
(1)并行数据库软件级容错能力较差。
并行数据库基于高端硬件设计,并且假设查询失败属于稀有事件。
因此当查询失败时,一般采取重做查询的方式。
而在大规模机群环境下,查询失败将会变为一个普通事件。
极端情况下,并行数据有可能出现不停重做查询的局面;
(2)并行数据库对异构硬件的支持非常有限,且对于处理较慢的节点反应敏感,容易出现“木桶效应”。
完全基于同构硬件搭建大规模机群在现实中是较难实现的。
因而,对异构硬件的支持能力影响了其扩展性;
(3)并行数据库若做到大规模可扩展,其代价将会较高(需基于高端硬件来保
证可靠性,需购买昂贵的软件系统),从而限制了其扩展性;
(4)根据CAP理论,在分布式系统中,数据一致性(Consistency)、可用性(Availability)、子网可分解性(NetworkPartitioning)不可同时兼得,选择其中任两项,便会损害另一项。
并行数据库追求的是数据一致性和系统的可用性,从而影响了它的扩展能力。
(5)基于并行数据库实现的传统数据仓库借助于外围工具(ETL工具、OLAP产品、BI报表工具、统计分析软件等)来完成数据的预处理和分析展现任务,导致其数据处理及分析过程涉及大量的数据迁移和计算,分析延迟往往较高。
2.2MapReduce技术
MapReduce技术是Google公司于2004年首次提出,作为面向大数据分析和处理的并行计算模型,立刻引起了工业界和学术界的广泛关注。
与传统数据仓库和分析技术相比,MapReduce适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。
数据量在TB和PB级别,在这个量级上,传统方法通常已经无法处理数据。
MapReduce将分析任务分为大量的并行Map任务和Reduce汇总任务两类。
Map任务运行在多个服务器上。
目前部署的最大集群有4000个服务器。
本文中主要是基于MapReduce的开源实现Hadoop为主而进行介绍。
Hadoop分布式文件系统(HDFS)【4】是运行在通用硬件上的分布式文件系统。
HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。
HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存储的事实标准。
HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。
2.2.1MapReduce技术适合处理的任务【4】
(1)复杂的数据:
业务数据不能适合行列的数据库结构。
数据可能来源于多种格式:
多媒体数据、图像数据、文本数据、实时数据、传感器数据等等。
当有新的数据来源时,可能会有新的数据格式的出MapReduce可以存放和分析各种原始数据格式。
(2)超大规模数据:
很多公司仅仅因为数据存放成本过高就放弃了很多有价值的数据。
新的数据来源使得问题更为严重,新的系统和用户带来比以往更多的数据。
Hadoop的创新构架使用低成本的常规服务器储存和处理海量的数据。
(3)新的分析手段:
海量复杂数据分析需要使用新的方法。
新的算法包括自然语言分析、模式识别等。
只有Hadoop的构架才能方便高效地使用新的算法来处理和分析海量数据。
MapReduce程序的具体执行过程如下所示:
2.2.2MapReduce技术的核心优势【4】
(1)高度可扩展,可动态增加/削减计算节点,真正实现弹性计算;
(2)高容错能力,支持任务自动迁移、重试和预测执行,不受计算节点故障影响;
(3)公平调度算法,支持优先级和任务抢占,兼顾长/短任务,有效支持交互式任务;
(4)就近调度算法,调度任务到最近的数据节点,有效降低网络带宽;
(5)动态灵活的资源分配和调度,达到资源利用最大化,计算节点不会出现闲置和过载的情况,同时支持资源配额管理;
(6)经过大量实际生产环境使用和验证,最大集群规模在4000个计算节点。
2.2.3MapReduce应用场景【4】
(1)视频分析和检索:
使用HadoopMapReduce算法,将存放在视频图片库中的海量数据并行分析检索,并可以将分析结果实时汇总,以提供进一步的分析及使用。
MapReduce算法使得原来需要几天的分析计算缩短到几个小时,如果需要甚至可以通过添加服务器的方式线性增加系统的处理能力。
新的算法,比如数字城市中的车牌识别、套牌分析、车辆轨迹分析等应用,都通过MapReduce算法部署到服务器集群中。
(2)客户流失性分析:
风险分析需要在不同数据的海量数据中使用模式识别技术寻找出具有风险倾向的个体或公司。
海量数据的存储、搜索、读取和分析都是需要高计算能力和高吞吐量的系统来实现。
使用MapReduce算法可以将复杂的计算动态地分布到服务器集群中的各台服务器上并行处理,可以通过服务器的线性扩充轻易突破计算能力的瓶颈,解决海量数据高性能计算的问题。
某运行商将所有的通讯记录实时导入到HBase中,一方面通过HBase提供实时的通讯记录查询功能,另一方面通过MapReduce分析用户的历史通讯录以识别出优质客户,当他们的通讯量显著减少时,意味着这些用户可能已转移到运行商,从而可以采取特定优惠措施留住这些用户;
(3)推荐引擎:
推荐引擎工具用于找出物品之间的相关性,然后推荐给用户相似的物品,从而达到进一步吸引用户,提高用户粘性的目的。
某购物网站采用MapRedu
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代