大大数据分析资料报告结课论文设计Word格式.docx
- 文档编号:14870531
- 上传时间:2022-10-25
- 格式:DOCX
- 页数:9
- 大小:28.46KB
大大数据分析资料报告结课论文设计Word格式.docx
《大大数据分析资料报告结课论文设计Word格式.docx》由会员分享,可在线阅读,更多相关《大大数据分析资料报告结课论文设计Word格式.docx(9页珍藏版)》请在冰豆网上搜索。
网络信息安全
一、大数据概述
目前,虽然大数据的重要性得到了大家的一致认同,但是关于大数据的定义却众说纷纭.大数据是一个抽象的概念,除去数据量庞大,大数据还有一些其他的特征,这些特征决定了大数据与"
海量数据〞和"
非常大的数据〞这些概念之间的不同.一般意义上,大数据是指无法在有限时间用传统IT技术和软硬件工具对其进展感知、获取、管理、处理和服务的数据集合.科技企业、研究学者、数据分析师和技术顾问们,由于各自的关注点不同,对于大数据有着不同的定义.通过以下定义,或许可以帮助我们更好地理解大数据在社会、经济和技术等方而的深刻涵.2010年ApacheHadoop组织将大数据定义为,"
普通的计算机软件无法在可承受的时间围捕捉、管理、处理的规模庞大的数据集〞.在此定义的根底上,2011年5月,全球著名咨询机构麦肯锡公司发布了名为"
大数据:
下一个创新、竞争和生产力的前沿〞的报
告,在报告中对大数据的定义进展了扩大.大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集.该定义有两方而涵:
〔1〕符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;
〔2〕不同部门符合大数据标准的数据集大小会存在差异.目前,大数据的一般围是从几个TB到数个PB〔数千TB〕[2].根据麦肯锡的定义可以看出,数据集的大小并不是大数据的唯一标准,数据规模不断增长,以与无法依靠传统的数据库技术进展管理,也是大数据的两个重要特征.大数据价值链可分为4个阶段:
数据生成、数据采集、数据储存以与数据分析.数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的根底,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值.
在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.大数据的主要特征5个,即5"
V〞特征:
Volume<
容量大>
、Variety<
种类多>
、Velocity<
速度快>
、难辨识<
veracity>
和最重要的Value<
价值密度低>
.
是指大数据巨大的数据量与数据完整性.可指大数据集合中包含的数据多,也可指组成大数据的网络包含的子数据个数多.
Variety<
意味着要在海量、种类繁多的数据间发现其在关联.大数据中包含的各种数据类型很多,既可包含各种结构化数据类型,又可包含各种非结构化数据类型,乃至其他数据类型.
Velocity<
可以理解为更快地满足实时性需求.大数据的结构和容等都可动态变化,而且变化频率高、速度快、围广,数据形态具有极大的动态性,处理需要极快的实时性.
Veracity<
难辨识>
可以表现在数据的容、结构、处理、以与所含子数据间的关联等多方面.大数据中可以包含众多具有不同概率分布的随机数和众多具有不同定义域的模糊数.数间关联模糊不清、并且可能随时随机变化.
Value<
是指大数据的价值密度低,大数据中,往往有用数据和大量无用数据混在一起,因此大数据处理的一项必要工作就是"
不断地清垃圾、除噪声〞.大数据时代数据的价值就像沙里淘金,数据量越大里面真正有价值的东西就越少.
大数据除了以上介绍的四个主要特征外,还具有纬度高,多源性,不确定性、社会性等特征.
大数据的类型大致可分为三类:
〔1〕传统企业数据〔Traditionalenterprisedata〕:
包括CRMsystems的消费者数据,传统的ERP数据,库存数据以与账目数据等.〔2〕机器和传感器数据〔Machine-generated/sensordata〕:
包括呼叫记录〔CallDetailRecords〕,智能仪表,工业设备传感器,设备日志〔通常是Digitalexhaust〕,交易数据等.〔3〕社交数据〔Socialdata〕:
包括用户行为记录,反响数据等.如Twitter,Facebook这样的社交媒体平台.大数据挖掘商业价值的方法主要分为四种:
〔1〕客户群体细分,然后为每个群体量定制特别的服务.〔2〕模拟现实环境,开掘新的需求同时提高投资的回报率.〔3〕加强部门联系,提高整条管理链条和产业链条的效率.〔4〕降低服务本钱,发现隐藏线索进展产品和服务的创新.从三大产业的角度将大数据的核心商业价值分类讨论.大数据应用,是利用大数据分析的结果,为用户提供辅助决策,开掘潜在价值的过程.从理论上来看:
所有产业都会从大数据的开展中受益.但由于数据缺乏以与从业人员本身的原因,第一、第二产业的开展速度相对于第三产业来说会缓慢一些.
具体实例
洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生.
google流感趋势<
GoogleFluTrends>
利用搜索关键词预测禽流感的散布.
统计学家特.西尔弗<
NateSilver>
利用大数据预测2012美国选举结果.
麻省理工学院利用手机定位数据和交通数据建立城市规划.
梅西百货的实时定价机制.根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进展实时调价.
医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化开展,这使得很多医疗机构有资金来做大数据分析.
二、大数据分析方法
统计方法:
指标比照分析法指标比照分析法
统计分析的八种方法一、指标比照分析法指标比照分析法,又称比拟分析法,是统计分析中最常用的方法.是通过有关的指标比照来反映事物数量上差异和变化的方法,有比拟才能鉴别.
指标分析比照分析方法可分为静态比拟和动态比拟分析.静态比拟是同一时间条件下不同总体指标比拟,如不同部门、不同地区、不同国家的比拟,也叫横向比拟;
动态比拟是同一总体条件不同时期指标数值的比拟,也叫纵向比拟.
二、分组分析法指标比照分析法
分组分析法指标比照分析法比照,但组成统计总体的各单位具有多种特征,这就使得在同一总体围的各单位之间产生了许多差异,统计分析不仅要对总体数量特征和数量关系进展分析,还要深入总体的部进展分组分析.分组分析法就是根据统计分析的目的要求,把所研究的总体按照一个或者几个标志划分为假设干个局部,加以整理,进展观察、分析,以揭示其在的联系和规律性.统计分组法的关键问题在于正确选择分组标值和划分各组界限.三、时间数列与动态分析法
时间数列.是将同一指标在时间上变化和开展的一系列数值,按时间先后顺序排列,就形成时间数列,又称动态数列.它能反映社会经济现象的开展变动情况,通过时间数列的编制和分析,可以找出动态变化规律,为预测未来的开展趋势提供依据.时间数列可分为绝对数时间数列、相对数时间数列、平均数时间数列.
时间数列速度指标.根据绝对数时间数列可以计算的速度指标:
有开展速度、增长速度、平均开展速度、平均增长速度.
动态分析法.在统计分析中,如果只有孤立的一个时期指标值,是很难作出判断的.如果编制了时间数列,就可以进展动态分析,反映其开展水平和速度的变化规律
指数分析法
指数是指反映社会经济现象变动情况的相对数.有广义和狭义之分.根据指数所研究的围不同可以有个体指数、类指数与总指数之分.
指数的作用:
一是可以综合反映复杂的社会经济现象的总体数量变动的方向和程度;
二是可以分析某种社会经济现象的总变动受各因素变动影响的程度,这是一种因素分析法.操作方法是:
通过指数体系中的数量关系,假定其他因素不变,来观察某一因素的变动对总变动的影响.
用指数进展因素分析.因素分析就是将研究对象分解为各个因素,把研究对象的总体看成是各因素变动共同的结果,通过对各个因素的分析,对研究对象总变动中各项因素的影响程度进展测定.因素分析按其所研究的对象的统计指标不同可分为对总量指标的变动的因素分析,对平均指标变动的因素分析.五、平衡分析法
平衡分析是研究社会经济现象数量变化对等关系的一种方法.它把对立统一的双方按其构成要素一一排列起来,给人以整体的概念,以便于全局来观察它们之间的平衡关系.平衡关系广泛存在于经济生活中,大至全国宏观经济运行,小至个人经济收支.平衡分析的作用:
一是从数量对等关系上反映社会经济现象的平衡状况,分析各种比例关系相适应状况;
二是揭示不平衡的因素和开展潜力;
三是利用平衡关系可以从各项指标中推算未知的个别指标.六、综合评价分析
社会经济分析现象往往是错综复杂的,社会经济运行状况是多种因素综合作用的结果,而且各个因素的变动方向和变动程度是不同的.如对宏观经济运行的评价,涉与生活、分配、流通、消费各个方面;
对企业经济效益的评价,涉与人、财、物合理利用和市场销售状况.如果只用单一指标,就难以作出恰当的评价.进展综合评价包括四个步骤:
1.确定评价指标体系,这是综合评价的根底和依据.要注意指标体系的全面性和系统性.
2.搜集数据,并对不同计量单位的指标数值进展同度量处理.可采用相对化处理、函数化处理、标准化处理等方法.
3.确定各指标的权数,以保证评价的科学性.根据各个指标所处的地位和对总体影响程度不同,需要对不同指标赋予不同的权数.4.对指标进展汇总,计算综合分值,并据此作出综合评价.七、景气分析
经济波动是客观存在的,是任何国家都难以完全防止的.如何防止大的经济波动,保持经济的稳定开展,一直是各国政府和经济之专家在宏观调控和决策中面临的重要课题,景气分析正是适应这一要求而产生和开展的.景气分析是一种综合评价分析,可分为宏观经济景气分析和企业景气调查分析.
宏观经济景气分析.是国家统计局20世纪80年代后期开始着手建立监测指标体系和评价方法,经过十多年时间和不断完善,已形成制度,定期提供景气分析报告,对宏观经济运行状态起到晴雨表和报警器的作用,便于国务院和有关部门与时采取宏观调控措施.以经常性的小调整,防止经济的大起大落.企业景气调查分析.是全国的大中型各类企业中,采取抽样调查的方法,通过问卷的形式,让企业负责人回答有关情况判断和预期.容分为两类:
一是对宏观经济总体的判断和预期;
一是对企业经营状况的判断和预期,如产品订单、原材料购进、价格、存货、就业、市场需求、固定资产投资等.八、预测分析
宏观经济决策和微观经济决策,不仅需要了解经济运行中已经发生了的实际情况,而且更需要预见未来将发生的情况.根据的过去和现在推测未来,就是预测分析.
统计预测属于定量预测,是以数据分析为主,在预测中结合定性分析.统计预测的方法大致可分为两类:
一类是主要根据指标时间数列自身变化与时间的依存关系进展预测,属于时间数列分析;
另一类是根据指标之间相互影响的因果关系进展预测,属于回归分析.
挖掘方法:
在大数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大大 数据 分析 资料 报告 论文 设计