互联网+大数据行业分析报告Word下载.docx
- 文档编号:21229584
- 上传时间:2023-01-28
- 格式:DOCX
- 页数:13
- 大小:29.31KB
互联网+大数据行业分析报告Word下载.docx
《互联网+大数据行业分析报告Word下载.docx》由会员分享,可在线阅读,更多相关《互联网+大数据行业分析报告Word下载.docx(13页珍藏版)》请在冰豆网上搜索。
1、数据生产的相关政策和法规
2、数据共享的相关政策与法规
3、隐私保护的相关政策和法规
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。
大量新数据源的出现导致了非结构化、半结构化数据爆发式的增长。
这些数据已经远远超越了目前人力所能处理的范畴,如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。
大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到收集、管理、处理、并整理成为帮助企业经营决策目的的咨询。
大数据不单单是指数量的量大,而且包括了以下的四个方面:
首先,数据的体量(volumes)大,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T),和我们所熟知的G相比,体量不可谓不大。
其次,是数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。
再次,是数据处理速度(velocity)快,在数据体量庞大的情况下,也能够做到数据的实时处理。
最后,是指数据的真实性(veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,信息的真实性和安全性显得极其重要。
3、大数据的技术
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。
主要可分为:
数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等8种技术。
同时,由这几种技术形成了批处理、流处理和交互分析三种计算模式。
4、大数据的应用
大数据的应用范围非常广。
有机构预测,“大数据”的发展,将使零售业净利润增长60%以上,制造业的产品开发、组装成本将下降50%以上。
在制造行业,企业通过对网上数据分析了解客户需求和掌握市场动向,并对大数据进行分析后,就可以有效实现对采购和合理库存量的管理,大大减少因盲目进货而导致销售损失。
在商业上,国外一些超市利用对手机的定位和购物推车获得商场内顾客在各处停留时间,利用视频监视图像软件分析顾客购物行为,优化商场布局和货架排列。
在政府决策上,分析几十年来的天气数据,将各地降雨、气温、土壤状况和历年农作物产量做成精密图表,就可以预测农产品生产趋势,政府的激励措施、作物存储量和农业服务也可以随之确定。
5、大数据处理方法
大数据的处理方法有很多,普遍适用的大数据处理流程,可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。
(1)、采集。
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。
比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。
并且如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计。
(2)、导入/预处理。
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。
也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
(3)、统计分析。
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
(4)、挖掘。
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。
比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。
该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
二、大数据发展现状与趋势分析
大数据的快速发展,使它成为IT领域的又一大新兴产业。
据中央财经大学中国经济管理研究员估算,国外大数据行业约有1000亿美元的市场,而且每年都以10%的速度在增长,增速是软件行业的两倍。
全球数据量存储情况
(1)、政府积极介入推动
2009年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。
2012年1月,世界经济论坛年会把“大数据、大影响”作为重要议题。
美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。
美国在开放政府上非常积极,通过Data.gov开放37万个数据集,并开放网站的API和源代码,提供上千个数据应用。
除了推动本国政府数据开放,美国倡导发起全球开放政府数据运动,已有41个国家相应。
美国政府还投资两亿美元促进大数据核心技术研究和应用,把大数据放在与集成电路、互联网同等重要的位置,从国家层面推进。
(2)、资本市场对大数据钟爱有加
2012年4月,大数据分析公司Splunk高调宣传大数据,引发投资者关注。
12月初,为企业市场提供Hadoop解决方案的创业公司Cloudera获得6500万美元融资,估值约为7亿美元。
近期,高盛联席主席斯科特.斯坦福说:
“投资大数据及其运用回报率最高”。
大数据领域的企业并购热度也在上升,单笔平均并购金额方面,大数据超过云计算位居IT领域榜首,在总并购额上也位居第二。
(3)、人才需求巨大
盖特纳咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位。
麦肯锡公司预测美国到2018年需要深度数据分析人才44万-49万,缺口14万-19万人;
需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。
目前,大数据在国内还处于初步阶段,尽管起步较晚,但发展迅速。
2011年作为大数据在国内的元年,规模还只有2.6亿元,而到2013年就已达到11.2亿元,预计未来几年大数据市场将迎来高速增长期,有望突破40亿元。
2011年-2016年国内大数据市场规模
2011年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题,科技部的《中国云科技发展“十二五”专项规划》和工信部的《物联网“十二五”发展规划》等都把大数据技术作为一项重点予以支持。
其中工信部发布的《物联网“十二五”发展规划》,把信息处理技术作为四项关键技术创新工程之一被提出来,其中包括海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。
而另外三项关键技术创新工程,包括信息感知技术、信息传输技术和信息安全技术,也都与“大数据”密切相关。
应用方面,中国三大通信运营商都在结合自身业务情况,积极推进大数据应用工作,并取得了较好的进展。
电子商务企业阿里巴巴提出要做中国数据分析第一平台,通过掌握的企业交易数据,借助大数据技术自动分析判定是否给予企业贷款,全程不会出现人工干预。
据透露,截至目前阿里巴巴已经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。
企业方面,我国能够处理大数据的企业并不是很多,这主要是因为国内企业在数据库、数据仓库和商业智能等领域基础比较薄弱。
但作为国内走在大数据行业前列的一些企业,技术水平也能达到较高水平,比如永洪科技在大数据、分布式计算、数据分析等领域具备核心竞争力、自主创新并拥有多项发明专利。
推出的Z系列产品在大数据的应用分析中在国际上也是领先的。
另外,还有其他的一些“大数据”相关的上市公司:
数据处理、分析环节、综合处理:
拓尔思、美亚柏科;
语音识别:
科大讯飞;
视频识别:
海康威视、大华股份、华平股份、中威电子、国腾电子;
商业智能软件:
久其软件、用友软件;
数据中心建设与维护:
天玑科技、银信科技、荣之联;
IT咨询、方案实施:
汉得信息;
信息安全:
卫士通、启明星辰。
拓尔思、美亚柏科
大数据的热潮也触发了一场思想启蒙运动,使得“大数据是资产,不是包袱”、“要拿数据说话”等观念逐步深入人心,改变了以往不重视数据积累,不相信数据分析等认识。
有了这种思维模式的改变,大数据的应用就有了希望。
据统计2011年全球被创建和被复制的数据总量达1.8ZB;
预计2020年全球电子设备存储的数据将增至35.2ZB
。
人类社会继蒸汽时代、电气时代和网络时代后,正在加速跨进大数据时代。
大数据的发展阶段及预测
(1)、开源软件和产业垂直整合
大数据时代开源技术的发展已经可以和商用软件分庭抗礼,传统的操作系统、中间体、数据库等平台级软件的同质化趋势已经渐趋明显。
最终用户的关注焦点集中如何解决企业的业务问题,而不是购买谁的数据库或者操作系统。
因此,越靠近最终用户的企业,将在产业链中拥有越大的发言权。
开源软件加剧了基础软件的同质化趋势,而软、硬件一体化的趋势,进一步弱化了产业链上游的发言权。
垂直整合推动大数据产业集约化的发展道路,从而
最大限度的获得商业利润。
(2)、非结构化大数据处理分析成为难点和重点
随着互联网和通信技术的迅猛发展,数据类型早已不是单一的结构化数据,还充斥着广泛存在于社交网络、物联网、电子商务等之中网络日志、音频、视频、图片、地理位置信息等等多类型的数据。
这些数据被命名为非结构化数据。
据统计,85%的数据都属于非结构化数据。
这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。
但是现有的数据处理方法仅适用于结构化数据,无法将大量的非结构化数据与结构化数据进行统
一、整合,从而就无法发掘数据中的价值。
目前国内在非结构化大数据挖掘分析方面,在社会化计算领域,针对于微博数据取得一定的实用性进展,并形成了一定的市场规模。
如社会化媒体云服务平台,它是建立在TRS大数据分析挖掘系统基础上的大型在线服务平台,该服务面向政府、企事业单位和个人,以在线云服务的方式提供信息监测、统计分析、关系挖掘、传播效果评估等一系列服务。
(3)、机器数据挖掘成为一个重要的发展方向
大数据中,机器数据是最大且增长最快的一部分。
每个现代企业机构,无论规模大小,都会产生海量的机器数据,利用这些数据是目前机构或企业的关键任务。
目前国外有代表性机器数据挖掘厂商为Splunk,Splunk针对IT运维、信息安全、交易分析等方面提供业界领先解决方案与产品。
通过运用专利数据分析技术,提供多种产品以满足各行各业用户在关键业务的运营保障、安全确保及业务分析方面的需求。
如今,国内一些厂商也在开发类似的机器挖掘产品,希望填补
国内空白。
(4)、大企业的定制化解决方案
大数据软件技术起源于以国外Google、Yahoo等巨头公司的分布式计算平台,并随着这些技术的开源基础架构,在国内互联网公司中得到广泛定制化应用。
所以目前大数据软件和应用的特点体现出开源和多样性的特点。
一些拥有海量数据的大企业,并没有互联网公司那样的大数据系统部署能力,因此这一需求推动了大数据标准化和产品化解决方案市场的发展。
在国外市场,已经出现了以提供企业级大数据软件产品的公司,如Cloudera公司提供基于Hadoop企业版大数据解决方案。
在国内,一些厂商也把海量非结构化信息处理技术和Hadoop架构进行有效结合集成,并结合企业在大数据采集、存储、分析挖掘、可视化方面的具体需求,开发企业级大数据分析挖掘系统。
推动大数据分析系统在企业的落地。
大数据技术的创新与应用,不仅能够应对数据爆炸带来的挑战,还能够创造出巨大的价值、提升社会生产率,因此大数据必将发展成为重要的新兴产业。
在整个大数据的发展过程中,不但在各个应用领域有大数据手段的涉入,在大数据产业链中的各段都涌现出大批的大数据企业。
大数据产业链全景图
(1)、公共领域
据《证劵日报》市场研究中心统计分析发现,目前我国在公共领域对大数据的运用主要集中在电力行业、智能交通、电子政务和司法系统四个方面。
电力行业:
大数据对该行业的应用主要体现在智能电网上,通过获取人们的用电行为信息,智能电网能实现优化电的生产、分配以及消耗,有利于电网安全监测与控制、客户用电行为分析与客户细分。
智能交通:
交通运输部将对公共交通信息化应用系统建设、相关支撑系统建设、数据资源与交换系统建设提供资金支持。
电子政务:
通过政府信息化,大数据能够提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,节约决策的成本。
司法系统:
公安市场大规模的信息化和装备投资产生了海量的非结构化数据,公安的实战应用是大数据的重要应用领域。
公共领域行业大数据案例
(2)互联网
互联网作为一个数据平台、一个数据集散地,聚集了海量的数据,完全可以借助新的大数据理论和技术,分析其中蕴含的丰富内容、发现其中存在的统计规律,以便为互联网提供更好的服务和应用、为互联网行业今后实现更好更快的持续发展提供定量化的依据。
大数据在互联网领域的应用现状及未来发展:
电子商务
利用大数据理论和技术,对网络购物、网络消费、网络团购、网上支付等数据进行深度挖掘、深入分析,可以发现大量有价值的信息和统计规律,对布局和推动今后中国互联网经济的健康有序发展、对进一步规范经营者和消费者的电子
商务活动、加强国家对该领域的宏观调控和监管等,均将产生积极的影响。
网络广告
利用大数据理论和技术,可深入分析网络广告的效果及其对商品销售等的影响、广告“读者”对之的反应等。
网络新闻、搜索引擎
利用大数据理论和技术,通过对网民搜索内容、习惯、爱好、关键词等深入分析,可为新闻门户网站的建设、搜索引擎技术的改进、互联网舆情的监控与引导等提供依据。
旅行预订
利用大数据理论和技术可以对旅行预订数据进行深入、精细分析,为更好的布局和旅游经济发展、更好的为游客提供产品和服务等提供参考和依据。
社交网络
利用大数据进行深入分析,可更好的发现民众新的交往习惯与方式、民众关注的社会问题与社会热点、民情民意,为改善互联网时代的通信和社交服务提供参考。
网络视频、网络音乐和网络游戏
通过大数据平台收集用户的行为数据,通过分析理解每个用户的动机和潜在价值,来调整视频网站、音乐网站和游戏的设计,并对这些用户行为进行实时自动营销,以更好的满足用户需求。
同时基于行为数据对用户细分后,还可以进行跨领域的用户营销,对不同用户类型推送不同类型的游戏、视频和音乐。
互联网行业大数据案例
(3)、智慧城市
智慧城市要体现人类社会对现代城市和运营管理新的科技发展的水平,它必然来自于对大数据的充分分析和利用,大数据源于非结构数据的猛增包括互联网的发展,使得数据级不断提高。
因此如何对数据进行分析和利用,促进人类智慧运用管理城市,这是面临的挑战。
智慧城市建设迫切使用先进的技术包括数据挖掘和功能的强大的运算系统,从而来整合分析跨地域、跨行业、跨部门的海量数据的处理,将特定的知识应用于特定的行业和特定的解决方案中,来支持智慧城
市建设的决策和相关行动。
将大数据应用与智慧城市的建设中,将迎来五大转变:
化被动为主动:
传统模式下人们往往是被动处理各类紧急事件,而大数据模式下将提供预测、预警机制,可主动部署人力,调动资源。
化僵化为灵活:
传统统计报表多为一天一生成或一月一生成,程序僵化、变动不易,而大数据模式下用户可自由生成各种统计报表,而无需系统事先预制报表。
化低效为高效:
传统模式下的海量数据模糊查询和统计分析无法达到用户的实时使用需求,而大数据模式则提供秒级响应的用户体验。
化单一为互动:
传统的数据应用多为单表挖掘分析,一旦涉及跨表就会因效率问题而无能为力,而大数据模式则擅长复杂的跨表关联分析,推动数据串并关联,产生更大价值。
化粗放为精细:
原来粗放的数据访问每次可查询的内容较少,为达到目的需多次操作,而精细化的数据访问可由系统自动关联并推送信息服务,用户一次查询可获得丰富的信息内容。
智慧城市行业大数据案例
(4)、金融行业
互联网金融是当下的一个热词,言下之意是指利用互联网技术、大数据思维进行的金融业务再造。
总体而言体现在两个方面,一是金融机构依靠互联网技术和思维自我变革;
二是互联网企业跨界开展金融服务。
目前,以大数据为代表的新型技术将在两个层面改造金融业。
一是金融交易形式的电子化和数字化,具体表现为支付电子化、渠道网络化、信用数字化,是运营效率的提升;
二是金融交易结构的变化,其中一个重要表现便是交易中介脱媒化,服务中介功能弱化,是结构效率的提升。
伴随着大数据应用、技术革新及商业模式创新,金融业中的银行和卷商也迎来巨大的转变。
此外,腾讯、阿里巴巴等互联网企业也在凭借其强大的数据积累和客户基础,进军金融业,开拓新的盈利点,这也成为金融产品在线销售的一大推动力。
金融行业大数据案例
当前主要大数据厂商的收入情况
从收入规模上来说,当前大数据市场的领导者是IBM、Intel以及HP,现对大数据市场中的部分重点企业进行分析。
(1)、IBM
2010年11月,斥资17亿美元收购数据分析公司Netezza,该企业的数据仓库产品有效的整合数据库内分析和并行网络架构。
2011年5月,发布专门针对大数据分析的平台产品。
2011年10月,在SPSS统计工具软件中增加视图和分析数据功能,从而帮助企业利用地理信息。
2012年2月,推出一体机分析工具IBMNetezzaCustomerIntelligenceAppliance,该工具可以进行快速复杂的实时分析。
2012年4月,收购VaricentSoftware,Varicent软件能够自动收集财务、销售、人力资源等部门的数据,并形成分析报告。
2012年4月,宣布收购Vivisimo公司,Vivisimo软件帮助客户搜索及深度挖掘大数据,且直观呈现数据。
2012年5月,收购TealeafTechnology,该公司开发用于分析消费者网络数据的软件公司。
2013年4月,宣布和搜狗公司(以下简称“搜狗”)合作成立联合实验室,共享平台、技术资源和人才以研发基于Systemx的下一代数据中心和大数据运算平台。
2013年11月,展示了企业级大数据和分析基础架构平台——IBMPowerSystems。
(2)、Oracle
2010年12月,第二版OracleExadata数据库机更名为“OracleExadata数据库云服务器”,该系统集成数据库软件、硬件服务器及存储设备。
2011年10月,宣布推出OracleExalytics商务智能云服务器。
2012年1月,发布Oracle大数据机,包含OracleNoSQL数据库、Cloudera的分布式Hadoop及开源R编程语言。
(3)、EMC
2010年7月,宣布收购数据仓储技术提供商Greenplum公司。
2011年5月,推出世界最大的单一文件系统,发布IsilonIQ108NL硬件产品和SmartLock数据保留软件应用。
2011年12月,推出支持大数据分析的平台EMCGreenplum统一分析平台(UAP)。
2012年3月,收购软件开发公司PivotalLabs。
2012年4月,发布数据科学的社交平台GreenplumChorus。
2013年2月,推出RSA信息安全智能分析平台,该平台以RSANetWitness技术架构为基础,将SIES、网络取证和大数据分析融合到一个平台之中。
(4)、SAP
2010年12月,发布高性能分析应用软件SAPHANA。
2012年3月,推出全新升级的SAPBusinessOne8.82产品,该产品可部署在SAPHANA平台上,满足成长型企业数据分析需求。
2012年4月,公布关于HANA数据库平台及数据库提供商Sybase的近期及长期规划,重点关注大数据的处理。
2012年4月,推出预测性分析软件SAPBusinessObjectsPredictiveAnalysis帮助客户实现预测性建模和高级可视化。
(5)、惠普
2010年9月,收购存储企业3PAR,成为增长最快的高端存储平台。
2011年2月,收购分析及数据管理软件公司Vertica,该公司主要开发用于存储和查询数据库的数据管理解决方案。
2011年8月,收购英国第二大软件厂商Autonomy,该公司擅长基于语义计算的数据处理和数据挖掘。
(6)、淘宝
2008年9月,宣布开放平台计划(“淘园”),第三方开发者可以通过开放接口访问淘宝数据。
2010年3月,宣布向全球分层次开放数据,向普通消费者免费提供涉及电子商务行业的宏观数据。
2011年8月,支持海量数据的数据库系统OceanBase遵照GPL2开源。
2011年9月,完全开放所有零售形态,连接外部B2C电商平台,该策略包括品牌商、供应商、零售商等。
(1)、中国联通
2012年中国联通成功将大数据和Hadoop技术引入到“用户上网记录集中查询与分析支撑系统”,并已经部署了4.5PB的存储空间。
系统已经具备了每天处理700亿条上网记录的能力,每天新增数据量达20多个TB,每年以70%的速度在递增。
通过该大数据项目,联通在全球运营商中率先提供了用户上网记录的清单查询服务,为移动互联网时代移动上网流量的明明白白消费提供了技术上的保证。
同时,也为中国联通的移动互联网业务精细化运营、流量提升、移动网络规划和优化提供了有效支撑。
(2)、中国移动
中国移动在大云1.5平台上部署了分析型PaaS产品,利用BC-Hadoop构建大数据处理平台,并在英特尔至强+Hadoop平台上运行,同时建设了并行数据挖掘系统以及商务智能平台等大数据应用平台,为将来在大数据应用和服务市场做了充分准备。
(3)、中国电信
从2009年开始中国电信成立的八大基地,在运营过程中都用到了大数据的概念。
目前为止中国电信在全国拥有300座以上的机楼,计算能力已经超过了100万处理器核心,存储能力已经达到EB的级别。
中国电信提出了大数据发展思路,并以综合平台、智能管道
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 数据 行业 分析 报告