基于Hadoop对某位置服务社交网络用户访问地理位置数据毕业设计说明书Word格式文档下载.docx
- 文档编号:13272457
- 上传时间:2022-10-09
- 格式:DOCX
- 页数:21
- 大小:481.65KB
基于Hadoop对某位置服务社交网络用户访问地理位置数据毕业设计说明书Word格式文档下载.docx
《基于Hadoop对某位置服务社交网络用户访问地理位置数据毕业设计说明书Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《基于Hadoop对某位置服务社交网络用户访问地理位置数据毕业设计说明书Word格式文档下载.docx(21页珍藏版)》请在冰豆网上搜索。
专业:
指导教师:
2016年6月
摘要
本文主要介绍了地理数据分析系统的工作原理以及各部分结构。
整个系统按照功能划分为四个模块。
第一个是用于存取数据的HDFS系统模块;
第二个是对数据进行清洗分类的MapReduce模块;
第三个是用于查询的Hbase和Hive模块;
最后一个是用于显示的前台界面模块。
旨在完成对庞大数据的清洗分类查询,并以直观可见的方式反映给用户相应的结果。
本程序基于Hadoop集群技术设计。
通过对多个主机的集群化处理完成分布式存储,统一调动和使用等目标。
当数据被存储到HDFS系统中时,会在多个主机进行存储备份,以防丢失。
而当用户需要查询或者调用某部分数据时,利用MapReduce对数据进行解读,确认和输出。
利用Hbase和Hive进行类似SQL语句的HQL语句执行,将结果反馈到jsp页面中。
利用数组将结果和插件显示进行匹配。
从而完成对数据的分析。
关键词:
地理数据,数据分析,结果反馈
Hadoop-basedaccesstoageographiclocationservicesocialnetworkuserdata
Abstract
Thispaperdescribestheworkingprincipleofgeographicdataanalysissystemandvariouspartsofthestructure.Accordingtothefunctionofthewholesystemisdividedintofourmodules.ThefirstisasystemmoduleforHDFSdataaccess;
thesecondisthedatacleansingclassificationMapReducemodules;
thethirdisforthequeryHbaseandHivemodule;
thelastoneisusedtodisplaythefrontinterfacemodule.Itaimstocompletethehugedatacleansingclassifiedinformation,andanintuitiveuser-visiblewaytoreflecttheresults.
TheprogramisbasedonHadoopclustertechnologydesign.Byclusteringprocessonmultiplehostscompletedistributedstorage,unifiedmobilizationanduseofothertargets.WhendataisstoredinHDFSsystemwillbestoredinthebackupmultiplehosts,topreventloss.Whenusersneedtoqueryortocallapartofthedata,theuseofMapReducedatainterpretation,validationandoutput.UseHbaseandHivesimilarSQLstatementHQLstatementisexecuted,andtheresultsfedbacktothejsppage.Theresultsandtheuseofanarrayofplug-insappeartomatch.Thuscompletingtheanalysisofthedata.
Keywords:
Hadoop,dataanalysis,theresultsoffeedback
目录
1引言1
1.1.课题的提出1
1.1.1.课题的背景和意义1
1.1.2.课题的现状及提出2
1.2.本系统的主要工作和目的2
1.2.1.主要工作3
1.2.2.最终目的3
1.3.本课题的技术支持3
1.3.1.Hadoop平台简介3
1.3.2.Hadoop集群的优点和应用3
1.3.3.MapReduce3
2系统需求分析4
2.1.网络社交发展4
2.2.系统功能需求4
2.3.系统的性能需求4
3系统的详细设计5
3.1.系统流程5
3.2.后台模块设计6
3.2.1.环境和包的搭建6
3.2.2.创建实体类用于存储Reduce输出的键值对8
3.2.3.创建HIVE查询内容编写:
9
3.2.4.Map的编写,对数据进行清洗,筛选:
11
3.2.5.Reduce的编写,对需要的数据进行键值对输出:
12
3.3.前台模块设计13
4调试与异常处理14
4.1.异常来源14
4.2.异常的处理14
5结束语16
5.1.设计结论16
5.2.心得体会16
参考文献17
致谢18
1引言
1.1.课题的提出
1.1.1.课题的背景和意义
时代的发展日新月异,如今以微博、社交网络应用APP、基于位置的服务LBS的新型信息交流方式不断的涌现。
与此同时,随着云计算、物联网等技术的兴起,数据正以前所未有的速度在不断的增长和累积,大数据时代已经来到。
世界知名杂志Nature在2008年推出了BigData专刊。
计算社区联盟(ComputingCommunityConsortium)同时也在2008年发表了报告《Big-DataComputing:
Creatingrevolutionarybreakthroughsincommerce,science,andsociety》,阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的挑战。
麦肯锡集团(McKinsey与)2011年6月份发布了一份关于大数据的详尽报告《Bigdata:
Thenextfrontierforinnovation,competition,andproductivity》,对大数据的影响、关键技术和应用领域等都进行了详尽的分析。
然而大数据的火热并不就说明人们对于大数据的了解深入,反而体现大数据存在过度炒作的风险。
大数据的基本概念、关键技术以及对其的利用上均存在很多的疑问和争议。
本文从大数据问题背后的本质出发,对现有的大数据研究资料进行全面的归纳和总结。
首先简要介绍大数据的基本概念,阐述其同传统数据库的区别。
在此基础上,对大数据处理框架进行详细解析。
我们认为大数据的发展离不开云计算技术,云计算支撑着大数据存储、管理以及数据分析等。
因此本文展开介绍了大数据时代不可或缺的云计算技术和工具。
最后全面阐述大数据时代面临的新挑战。
就另一方面而言,位置服务(locationbasedservice,LBS)是通过电信移动运营商的网络(如GSM网、CDMA网)获取移动终端用户的位置信息(经纬度坐标),在电子地图平台的支持下,为用户提供相应服务的一种增值业务.它是移动通信技术、空间定位技术、地理信息系统技术等多种技术融合发展到特定历史阶段的产物,是现代科学技术和经济社会发展需求的客观要求。
随着移动通信技术、网络技术和测绘技术的发展,与位置相关的信息增值服务已经成为现代地理信息产业的重要组成部分,并逐渐成为其中最大的增长点.近年来,我国地理信息产业发展迅猛,2007年,地理信息产业总规模达到500亿元,从业人数达到40多万人,其中基于位置的服务占到很大比重,位置服务越来越得到人们的关注和重视,位置服务的概念也频频出现在各种报刊、网络和政府文献中,成为很多地理信息产业业内人士热议的话题。
1.1.2.课题的现状及提出
进入21世纪以来,大数据的概念更是可谓深入人心。
从谷歌的3篇论文开数据大数据时代到现如今滴滴,Uber,网盘等结合云计算和大数据的技术产业迅猛发展。
数据也产生了三个重要的变化
(1)数据量,由TB级升至PB级,并仍在持续
爆炸式增长。
根据WinterCorp的调查显示,最大的数据仓库中的数据量,每两年增加3倍(年均增长率为173%),其增长速度远超摩尔定律增长速度。
照此增长速度计算,2016年最大数据仓库中的数据量将逼近100PB。
(2)分析需求。
由常规分析转向深度分析(DeepAnalytics).数据分析日益成为企业利润必不可少的支撑点。
根据TDWI对大数据分析的报告企业,已经不满足于对现有数据的分析和监测,而是更期望能对未来趋势有更多的分析和预测,以增强企业竞争力.这些分析操作包括诸如移动平均线分析、数据关联关系分析、回归分析、市场篮分析等复杂统计分析,我们称之为深度分析.值得补充的是,本文中的大数据分析不仅仅指基于大数据上的深度分析,也包括常规分析。
(3)硬件平台。
由高端服务器转向由中低端硬件构成的大规模机群平台。
由于数据量的迅速增加,并行数据库的规模不得不随之增大,从而导致其成本的急剧上升。
出于成本的考虑,越来越多的企业将应用由高端服务器转向了由中低端硬件构成的大规模机群平台。
同时,大数据的一个更为广泛的应用就是在地图和社交方面的应用。
结合LBS系统。
可以分析和调查一个人的行动轨迹,对对象进行数据画像。
应用大数据的技术描绘出一个人的生活状态。
诸如类似的有高德地图,XX地图的应用,将大数据结合LBS系统,为用户推荐附近的餐馆,加油站,娱乐设施等。
像这样多个数据库进行叠加和结合,便是大数据的概念。
与此同时,很多社交软件,例如微信,人人网,XX贴吧等APP会针对用户进行每日签到。
这些签到信息结合位置信息,就是我们将要分析的数据。
以此为基本,可以以热力图的形式直观显示给用户。
用于调查某地的人流情况,或分析某用户的习惯等。
1.2.本系统的主要工作和目的
在我们了解了相关背景知识后,就要了解我们做的分析的目的。
1.2.1.主要工作
本系统主要用于对数据进行分析和整理,并以直观的形式向用户反映出来。
数据为某社交网站允许其用户签到,我们收集了10000位用户的大约270万次签到数据。
主要工作划分如下:
1)分析一位用户的每日签到数据
2)分析同一地域的每日用户签到数据
3)分析是否有用户去过同一地点
4)分析同一地区的用户长期签到数据
5)分析一地区的热力,是否适合商业发展
1.2.2.最终目的
通过这些分析我们可以大致了解用户的地理位置信息。
行动和生活轨迹。
1.3.本课题的技术支持
1.3.1.Hadoop平台简介
Hadoop是目前应用最广泛的开源分布式存储和计算平台之一。
它是根据Google的GFS分布式文件系统和Map/Reduce分布式计算技术而开发的开源平台,其设计目标是在普通的硬件平台上构建大容量、高性能、高可靠的分布式存储和分布式计算架构。
Hadoop目前已在Yahoo、Facebook、亚马逊、XX、中移动等公司取得了广泛应用。
其中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Hadoop 某位 服务 社交 网络 用户 访问 地理位置 数据 毕业设计 说明书
链接地址:https://www.bdocx.com/doc/13272457.html