企业大数据平台建设方案.docx
- 文档编号:176332
- 上传时间:2022-10-05
- 格式:DOCX
- 页数:68
- 大小:833.39KB
企业大数据平台建设方案.docx
《企业大数据平台建设方案.docx》由会员分享,可在线阅读,更多相关《企业大数据平台建设方案.docx(68页珍藏版)》请在冰豆网上搜索。
企业大数据平台建设方案
目录
1大数据平台建设方案 5
1.1大数据服务工程平台架构 5
1.2信息资源共享服务平台建设原则 8
1.3数据快速汇集 9
1.3.1数据资源分析 9
1.3.2数据整合流程节点 10
1.3.3技术路线 10
1.4数据混合存储 11
1.4.1结构化并行数据库 12
1.4.2统一大数据处理平台 29
1.4.3大数据管理平台功能 34
1.5数据多维管理 38
1.5.1元数据管理 38
1.5.2数据资源库管理 39
1.5.3数据预加工管理 40
1.5.4数据质量管理 40
1.5.5数据生命周期管理 42
1.5.6数据处理过程管理监控 42
1.6通用数据分析模型 43
1.6.1综合查询 43
1.6.2分类统计、排序 43
1.6.3数据比对 44
1.6.4活动轨迹PGIS应用 44
1.6.5智能报警 45
1.7数据资源共享服务平台门户 45
1.7.1平台门户功能 45
1.7.2界面设计原则 46
1.8管理体系建设 47
1.8.1数据资源管理系统 47
1.8.2授权管理 47
1.8.3日志管理 47
1.8.4运行监控 48
2项目实施与管理 48
2.1实施计划 48
2.2实施周期 49
2.3项目建设机构 50
2.4人员配置 51
2.5项目沟通 52
2.6项目文档管理 52
3应急处置预案服务 53
3.1系统故障应急流程说明 53
3.2数据中心机房应急服务 55
3.2.1机房漏水应急预案 55
3.2.2设备发生被盗或人为损害事件应急预案 56
3.2.3机房长时间停电应急预案 56
3.2.4通信网络故障应急预案 57
3.2.5不良信息和网络病毒事件应急预案 57
3.2.6黑客攻击事件应急预案 59
3.2.7服务器软件系统故障应急预案 59
3.2.8核心设备硬件故障应急预案 60
3.2.9业务数据损坏应急预案 60
3.2.10雷击事故应急预案 61
3.3系统应急预案处置保障 62
3.3.1应急预案启动原则 62
3.3.2应急预案指挥原则 62
3.3.3应急保障措施 62
4售后服务方案 63
4.1售后服务期限 63
4.2售后服务内容 64
4.3响应时间 64
4.4服务体系 64
4.4.1支持服务 64
4.4.2咨询服务 65
4.4.3部署服务 66
4.4.4故障排除服务 67
1大数据平台建设方案
1.1大数据服务工程平台架构
园区信息化进入“大整合、高共享、深应用”阶段后,数据种类不断丰富、总量急速增长、结构不断异化,大数据体系已见形成,基于大数据特征构建园区信息化数据中心总体架构及信息资源服务平台结构,是云计算、大数据技术在园区信息化建设中落地与深化应用的新课题.
区别于商业大数据的政务大数据特征:
目前在商业上,特别是针对互联网的商业领域,对“大数据”(BigData)已经有了一个比较清晰的定义,它一般是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。
”通常用数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)以及处理速度快(Velocity)4个V来概括大数据的特征。
当前智慧环保产业园区大数据服务工程面临的“大数据”现状显然无法直接套用上述商业领域的定义。
智慧环保产业园区是一个以政府部门(管理委员会)为主导,融合各种服务与管理部门,对园区企业进行管理,提供服务的场所。
政府部门在体系中掌握主导权并拥有众多数据,但在工程建设过程中必须尊重企业的信息安全和商业机密保护,整体建设程序一个复杂的态势,从信息资源角度看,智慧环保产业园区大数据服务工程的“大数据”有如下三个显著特征:
(1)企业数据资源相对私有,仅可提供对政府开放。
商业上“大数据”一个特点是数据来源是公开的,商业“大数据”公司一般是通过独有的应用利用公开数据为客户提供服务,而园区的“大数据”主要是来源于企业和园区内部,也有一部分会来自政府其他行业部门、商业化的社会公司,同时还包括一些来自互联网资源。
但这些数据绝大部分最终是归企业和园区各部门私有的。
且一般情况下不可能直接提供给第三方,但园区提供社会服务的组织特性又让其具有对外服务的需求。
如园区的人口数据,公安部门明确规定为“私有”数据,此类数据一般不可能完全交给第三方处理,但这个数据又必须对外提供相应的服务,类似的情况还有企业商业机密等数据。
(2)数据分布统分结合,且以结构化数据为主。
目前园区信息化建设尚处在以数据库为核心的传统信息系统建设阶段,所以无论是企业还是园区,占数据绝大多数的部分是结构化数据;并且,这些数据分散分布在园区各企业和服务部门处,又会周期性汇总到管委会处,数据分布城西统分结合,结构化为主的特点。
(3)企业、部门壁垒森严,共享应用是最大难点。
这是大数据工程建设过程中一个显著的特点。
从根本上讲,“大数据”工程就是想把原本分散的资源聚集起来,再以服务的形式提供给受众。
但是,园区内部不同的成员之间往往在资源和信息方面是呈现不对称的情况的。
如何促进资源,特别是数据在园区内部聚集和共享,是智慧环保园区大数据服务工程“大数据”应用的最难,也是最终要解决的问题。
因此,建设一个园区统一的数据中心,是“大数据”工程的关键起步。
这个项目的建设目的,其核心是整合原有分散在各个部门、各个企业中的数据,这里要注意,是整合而不是绝对的汇聚,即把所有数据汇聚到某个中心,是针对智慧环保产业园区的特点,按照“汇聚整合是原则,分布处理是例外”的总体原则,有策略、有计划的整合和共享多个系统的数据,特别注意是在进行海量数据分析时,必需进行统一的一体化分布式处理。
这其中包含了三方面的主要内容:
一是数据以及接口服务的标准与规范,包括数据模型。
这个与传统单点的处理差别不大,增加的内容是在数据模型建设中需要更多的考虑分布式数据的标准规范及之间的相关性。
二是数据处理框架和相应的平台。
这部分从技术上讲和传统区别很大,不但需对传统的、单点状态下的关系型数据进行优化处理,更不是单单引入目前所谓商业上成熟的大数据技术平台,如Hadoop平台等,而是必须结合上述园区数据现状的三个特征,特别是目前以分布的结构化数据为主的这一特征,建设一个基于服务总线的以分布式并行处理模式为主,引入商业大数据技术和优化传统处理模式为辅的综合处理框架。
三是平台应用最终落脚点在体现业务价值。
信息资源服务平台建设的最终目的是希望经过处理和分析后的数据,不但能够全局共享,实现查询、比对、统计等基础应用,更需要支撑进一步的深度应用,比如趋势预测、辅助决策等,这样才能最大限度的体现信息资源服务平台建设的业务价值。
因此,智慧环保园区大数据服务工程平台必须本着“前瞻思维、落地实现”的规划和建设原则,基于园区大数据特征,以云计算、大数据处理等新技术为关键支撑,以数据资源汇聚整合为基础,以数据处理为核心,以服务实际应用为目标,实现园区数据中心建设从传统模式向大数据计算、云服务应用新型模式的战略性转变,同时基于数据中心总体架构建信息资源服务平台,把其作为城市信息资源服务平台和智慧城市工程总体框架中的独立节点开展建设,基于数据服务总线、请求服务系统、数据接入平台,建设以分布式并行处理模式为主、引入商业大数据技术和优化传统处理模式为辅的综合处理框架,实现跨系统、跨部门的交换共享、集成联通、服务联动、一体化应用。
基于智慧环保产业园区大数据特征构建的园区综合信息资源服务平台结构,由数据汇集、数据存储、数据管理、数据服务、数据分析、安全防护等部分构成。
1.2信息资源共享服务平台建设原则
信息资源共享服务平台实现汇总数据的统一存储,实现汇总数据的标准化,对汇总数据进行归纳索引,对汇总数据进行业务分类,对汇总数据进行关联,对汇总数据进行统一管理。
信息资源共享服务平台的功能定位:
信息资源汇聚的中心仓库,数据服务共享的统一窗口,高端综合应用的信息源头,基础应用发展的拉动引擎。
Ø与现有业务数据相对融合
现有业务数据和信息资源共享服务平台的作用、服务对象、出发点不同,要求业务数据库和信息资源共享服务平台建设既相关又独立。
做到:
基础数据与业务数据统一存储;数据拥有、使用权限分离管控;数据处理采用统一框架,增加数据处理效率,维护数据的安全性。
Ø要素关联
在组织信息资源服务平台的过程中按照各要素信息,实现数据、要素之间的无限关联关系。
Ø应用导向
建设信息资源共享服务平台的最终目标就是为了以综合库为基础开展各种服务应用,所以系统设计必须以支持应用服务为目标导向,能够支撑不同综合应用的需求。
Ø标准化
信息资源共享服务平台是各部门、企业信息化实现数据共享的统一服务,所以信息资源共享服务平台的数据元、逻辑结构和信息代码标准及应用接口都应实现标准化和规范化,以保证园区信息共享和应用支持。
Ø扩展性
信息资源服务平台设计应能够满足数据源、数据内容和数据格式不断变化,方便实现更多种类数据的汇聚及更多应用的开展。
Ø开放性
信息资源服务平台是各类综合应用的基础,必须具有很好的开放性,方便内外数据服务共享。
1.3数据快速汇集
基础数据整合汇集依托复合型数据抽取整合工具,按照现代数据仓库建设的理念和流程,汇集公安内外部数据资源。
1.3.1数据资源分析
数据整合资源来源包括园区云平台服务数据、园区政府部门业务数据、园区企业管理平台系统数据、地理信息系统数据、平安园区综合监控平台数据等条线系统数据、电子政务数据、社会信息数据、移动互联网数据。
汇聚整合资源数据种类包括数字、文本、图表、视频、音频、地理空间等结构化、半结构化、非结构化数据。
1.3.2数据整合流程节点
第一步,数据接入缓存:
数据汇集平台建设,基于数据服务总线整体框架,通过公共数据交换平台和请求服务平台,实现将公安内网数据源的数据汇聚缓存至数据平台数据缓冲层;通过数据接入平台实现社会信息数据、电子政务数据、移动互联网数据的接入数据缓存层。
第二步,数据ETL:
数据汇集平台数据整合集成在梳理园区政务服务业务流程与信息资源的基础上,建立数据整合的业务逻辑和数据模型,采用可视化ETL工具,进行数据抽取、转换、清洗、加载等基础功能,并可根据业务逻辑新增或变更ETL数据情况过程。
第三步,数据存储:
数据汇集平台数据整合最终采用物理集中方式进行存储,经过ETL清洗的数据根据实际业务的需求,频繁比对数据存于基于Spark内存数据库的数据存储空间,静态数据存储于基于Hadoop文件系统的Hive或Hbase存储空间。
1.3.3技术路线
数据汇集技术难点主要集中与数据清洗ETL过程,由于整体数据量庞大且数据来源多种多样,为数据ETL工具的性能和全能型提出更高层次的要求。
本次ETL设计选型充分考虑性能和功能两个角度,性能上充分利用数据总线调度框架,接入调用Spark并行任务框架,采用可动态调节多线程ETL处理架构,充分发挥大数据中心的性能,提升数据入库及清洗的效率;功能上集成针对结构式数据库、非结构化文件数据、流式数据等多种数据接入模块,为智慧环保产业园区大数据服务工程建设提供全部可扩展的支撑。
其技术路线如下:
1.4数据混合存储
数据存储层基于分布式混合型存储架构,构建源头数据汇聚库和系列服务应用专题库等数据库群,在存储介质上选择MPP数据库、Hadoop数据仓库、Spark内存数据三者融合存储架构,为不同类型数据选择不同数据存储介质,保证数据存储及处理的高效性、开放性与扩展性;
1.4.1结构化并行数据库
对于经过前端数据采集系统预处理后形成的海量数据结构化数据来说,是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 数据 平台 建设 方案
![提示](https://static.bdocx.com/images/bang_tan.gif)