共享数据中心DCI数据清洗与整合技术白皮书.docx
- 文档编号:5469465
- 上传时间:2022-12-16
- 格式:DOCX
- 页数:20
- 大小:732.55KB
共享数据中心DCI数据清洗与整合技术白皮书.docx
《共享数据中心DCI数据清洗与整合技术白皮书.docx》由会员分享,可在线阅读,更多相关《共享数据中心DCI数据清洗与整合技术白皮书.docx(20页珍藏版)》请在冰豆网上搜索。
共享数据中心DCI数据清洗与整合技术白皮书
DCI3.1.0技术白皮书
数据清洗与整合技术白皮书
前言
随着互联网技术的深入发展,数据信息的存储与处理已经成为众多企业、事业单位、学校等数据业务的核心部分,但由于传统的存储数据方式各异,使得客户需要一种能处理异构数据存储方式的数据清洗产品,这种产品能够处理诸如关系型数据库、非关系型数据库、结构性文档、非结构性文档等复杂的数据清洗、整合场景;能够解决异构数据的转换;解决不同数据结构间的转换、清洗;解决不同数据源间的数据同步。
近年来,随着SOA、云计算、云存储、物联网等高新技术的快速发展,业内对集中处理大数据信息,尤其是海量数据提出了新的要求和新的挑战,而这也将成为数据清洗行业未来的主流发展方向。
正由于数据清洗、数据整合等技术越来越受到市场和业界的关注,我公司开发出一款实用、稳定、具有自己特色的数据清洗产品。
该产品依托于JAVA企业级应用框架,致力于各种异构数据源实现统一的、智能的数据清洗与整合,主要为教育行业的数据清洗与整合提供标准的组件。
术语和符号说明
术语
描述
DataCleaning
数据清洗
DataConsolidation
数据整合
DCI
DCI(DataCleanIntegration)是成都康赛自主研发的企业级数据清洗与整合平台产品,包括数据清洗与整合作业管理系统(DCI-MS)、数据清洗与整合执行引擎(DCI-Engine)以及数据清洗与整合作业设计器(DCI-Studio)。
DCI-MS
DCI-MS(DataCleanIntegrationManagementSystem)数据清洗与整合管理系统,是DCI产品的三大子系统之一,它实现了数据清洗与整合的综合信息管理。
DCI-Engine
数据清洗与整合执行引擎,是DCI产品的三大子系统之一,是DCI产品中的数据清洗与整合中间件,是DCI作业运行的必不可少的上下文环境。
DCI-Studio
数据清洗与整合作业设计器,是DCI产品三大子系统之一,它实现了对DCI作业的定义、编辑、设计以及发布相关操作。
DCI作业
数据清洗与整合作业,描述了数据清洗与整合作业的完整处理流程。
数据源嗅探器
在DCI-MS端内置数据库连接信息的抽取工具,它可以自动地将DCI作业中所包含的数据库连接信息进行自动的识别与抽取。
第一章概述
一.1什么是数据清洗与整合
数据清洗(DataCleaning)就是发现和清除数据中的错误与不一致,从而保证数据的质量,其目标是保证数据的一致性,确保数据的参照完整性和数据的精确性,清洗和刷洗是两个可以互换的术语,是比简单变换更复杂的一种数据变换。
在这种变换中,要检查的是字段和字段组的实际内容和隐含内容,而不是存储格式。
一种清洗是检查数据字段中的异常值。
这可以通过范围检验、枚举和相关检验来完成。
另一种是检查整条记录是否重复。
数据整合(DataConsolidation)是把在不同的数据源的数据收集、整理经过清洗和转换后加载到一个新的数据源,为数据消费者提供统一数据视图的数据集方式。
一.2数据清洗与整合特点
一.2.1数据清洗特点
(1)轻松实现数据整合业务定义与设计
数据整合业务面对不同类型、不同格式的异构数据进行清洗与整合,传统的做法是针对特定的数据要求进行数据整合业务的定制开发,这种方式虽然能够满足数据整合业务的需求,但是专业技术水平要求高,同时也带来了较大的维护难度。
(2)智能完成各种异构数据的清洗与整合
提供数据整合执行引擎,自动智能地依照已定义的数据整合业务过程对各种结构化、半结构化、非结构化、文件数据、数据库数据进行清洗与整合,整个处理过程无须人工干预。
(3)统一管理数据整合作业
提供数据整合作业管理系统,完成对数据整合作业的统一管理,在数据整合管理系统中你可以实现数据整合作业的灵活调度启动、数据整合作业的状态控制、数据整合作业处理过程实时监控以及数据整合的日志、影响分析。
(4)快速集成第三方应用的数据整合服务
提供的数据整合服务不仅面向系统内的使用用户,而起支持SOAP的WebService调用,能够很好的和其他第三方应用程序实现集成。
一.2.2数据整合特点
(1)底层数据结构的透明
为数据访问提供了统一的接口,消费应用无需知道数据在哪里保存,源数据库支持哪种方式的访问
(2)性能和扩展性
数据整合把数据集成和数据访问分成了两个过程,当访问时数据已经处于准备好的状态。
(3)准确与可靠性
提供真正的单一数据视图(dataview),数据整合的优势是经过了数据校验和数据清理,提供消费的数据更加真实、准确和可靠。
(4)可重用性
由于有了实际的物理存储,数据可以为各种应用提供可重用的数据视图,而不用担心底层实际的数据源的可用性。
(5)加强数据管控能力
数据整合的优势是数据规则可以在数据加载,转换中实施,保证了数据管控。
第二章DCI3.1.0产品特性
二.1技术特性优势
(1)“各司其职”的松耦合产品架构
DCI产品被划分为三大子系统,DCI-MS、DCI-Studio和DCI-Engine。
DCI-MS专注于数据整合的综合信息管理、调度DCI作业,DCI-Studio专注于DCI作业的编辑与设计、DCI-Engine专注于DCI作业的执行。
三大子系统各司其职,共同协作却并不互相依赖,给DCI产品带来了极大的可扩展性。
(2)人工智能的DCI-Engine集群负载均衡
DCI-Engine基于JavaRMI技术实现了热插拔式的分布式集群部署。
DCI-MS内置的DCI作业调度器,采用了基于系统性能负载的调度算法,总是会智能地将DCI作业分发至当前DCI-Engine集群环境中性能负载最小的一个DCI-Engine进行处理,实现了DCI产品的数据整合负载均衡,有效提高数据整合数据吞吐量。
(3)灵活而高细粒度的权限控制
DCI安全认证体系基于URL拦截与ACL控制列表访问技术,对系统完成了灵活而高细粒度的权限控制,能有效的针对系统级权限、功能级权限、资源级权限和数据级权限进行控制与保护,并且允许用户根据实际需要进行各种权限控制规则的自定义,自定义的权限规则即时生效无需重启服务器。
(4)总线型的消息通信机制
DCI产品内置了一个统一消息传输总线,将系统内的邮件消息、短信消息与网页即时消息进行了统一的输入与输出,消息的订制与消息的发送均由统一消息传输总线进行传输。
DCI产品内部用户与外部匿名邮箱或手机之间通过统一消息传输总线“互通有无”。
(5)基于HTML5技术的业务流程管理与设计
HTML5正在快速成长,最近的一两年,Chrome应用商店、GoogleTV和AppleTV领域已经出现许多的HTML5应用。
HTML5将像传统的Flash,Flex,Silverlight,Objective-C那样,形成自己的生态系统,并正在成为当前前台技术潮流。
在DCI-MS中采用了HTML5的绘图技术实现DCI业务流程绘图面板功能,采用WebSorket技术实现了前台页面与服务器后台的实时通信,正是这一新兴技术的前驱应用。
二.2功能特性优势
(1)多用户数据整合管理,我的数据我做主
传统的数据整合业务管理工作往往都由某一个人或者某一部门单独来完成,例如一所学校的数据整合业务管理工作往往都是集中于该校的网络信息中心,这样“独揽大权”的管理模式虽然也能满足学校数据整合业务的需求,但是在日益复杂繁琐的数据整合背景下,网络信息中心的数据整合业务管理工作也将日益繁重,最终该校极有可能出现数据整合业务管理“有心无力”的局面。
更为重要的是一个部门“需要整合那些数据”、“怎么整合”、“什么时候整合”等问题只有该部门本身才最清楚答案,只有让其自身来管理自己的数据整合业务才能真正的扫清业务死角,从而彻底的消除信息孤岛的存在。
DCI产品采用了多用户分工的数据整合业务管理模式,将所有的DCI作业按照不同的组织机构(部门)进行划分,为每个部门提供“一键式”的DCI作业管理操作界面,每个组织机构(部门)的管理员都能且仅能对本部门内的DCI作业进行管理操作。
数据整合业务的管理不再是某一个人或者部门的“特权”,每个部门都参与到数据整合业务的管理工作中来,彻底打破了传统“独揽大权”的数据整合管理模式,使得各个部门实现了数据整合业务的“当家做主”。
(2)图形化业务流程绘图面板
业务流程绘图面板采用所见即所得的图形化方式实现对数据整合业务处理流程的定义,操作简单方便,允许用户对各种业务流程组件进行拖拽与编辑,关联各项业务组件之间的上行下行关系,完成对数据整合业务流程的设计。
业务流程绘图面板支持对业务流程图的一键保存功能,已保存的业务流程图能够被绘图面板进行自动的动态渲染,完成其“复制-粘贴”式的完全还原。
通过DCI产品提供的数据整合业务流程绘图面板,用户可以轻松的实现各种数据整合业务流程图的创建、修改与浏览操作。
(3)个性化的消息定制服务
DCI产品个性化的消息定制服务,支持针对于系统性能预警消息、DCI作业运行监控消息以及业务数据源监控消息的个性化定制功能,允许用户对这些消息的内容、发送方式和接收对象进行灵活的配置。
消息内容定制采用了消息模板的方式,消息模板中内置的运行时变量,如系统时间、定制对象、消息类型等等,可以帮助用户完成消息内容的动态定制。
消息发送方式的定制支持邮件发送、短信发送与网页即时发送三种类型,接受对象的定制支持包括DCI系统用户和外部匿名的手机或电子邮箱。
通过DCI产品提供的个性化消息定制功能,根据用户的定制的传送方式,主动地将系统性能消息、作业运行监控消息和业务数据源监控消息推送至用户指定的接收端,使用户达到对系统性能、DCI作业运行状态以及业务数据源的实时监控目的。
(4)灵活多变的DCI作业调度
DCI作业的内置的作业调度器,采用了灵活多变的任务触发机制,除了支持DCI作业的手动启动以外,还支持定时自启动与周期性循环自启动两种方式。
用户可以根据实际需要对DCI作业的启动方式进行相应的配置,支持按照用户指定的特定时间点定时或周期性启动。
通过DCI产品提供的灵活多变的DCI作业调度器,用户可以根据其实际的需要对DCI作业的调度启动进行灵活配置,特别是对于比较规律的DCI作业,为其指定定时启动或者周期性启动,将为用户减轻许多工作量。
(5)基于业务的数据整合影响分析
在DCI产品中,在狭义的角度上看,一项DCI作业是一项数据整合流程的定义,从广义的角度来看,一项DCI作业实际上也是一条数据整合业务的代表。
DCI产品对每一项DCI作业的运行日志进行记录,通过对这些运行日志的分析,提炼出DCI作业对用户数据的影响,在界面上通过直观、漂亮的报表向用户进行展示,比如“数据整合数据处理总量统计报表”、“部门业务数据流量统计报表”等。
通过DCI产品提供的数据整合影响分析功能,使用户能够清晰的了解到数据整合对业务的影响与成果,进而使得数据整合进程对用户更加透明化,帮助用户快速定位业务死角与信息孤岛。
(6)人性化的系统健康指数
在DCI产品中对于系统的综合运行情况采用了系统健康指数标准来进行表示,系统健康指数是根据综合了DCI-MS、DCI-Engine的性能负载情况而对整个DCI产品的综合运行情况进行的客观评定。
系统健康指数将系统的健康运行情况划分为5个星级,星级越高则代表运行情况越佳。
DCI产品内置自动的系统健康指数评定功能,实现为DCI产品运行情况星级评定,在界面上通过美观大方的五星图标来进行表示。
用户通过该图标就能够直观的了解DCI产品当前的总体运行概况,轻松实现对DCI产品的运行监控。
二.3产品性能体系
(1)并发运行的DCI作业数量
并发运行的DCI作业数量对系统的系能有很大影响。
(2)部署的DCI-Engine数量
DCI-Engine部署的数量会影响系统的性能。
应综合考虑DCI作业处理需求来决定DCI-Engine的部署数量,以最大提高系统性能。
(3)并发使用的用户数
并发使用的用户数越多,对DCI系统的性能要求越高。
(4)系统支撑软件
系统支撑软件包括应用服务器(如tomcat)、数据库服务器(mysql)。
第三章产品技术架构
三.1技术架构
三.2运行环境
运行环境
最小配置
推荐配置
硬件环境
✧内存容量:
2G
✧CPU:
P42.8*1
✧磁盘容量:
40G
✧内存容量:
4G
✧CPU:
P43.0*2
✧磁盘容量:
80G
软件环境
服务器端:
✧操作系统:
WindowsServer2003、Linux、Solaris10、HP-UX
✧JDK:
JDK1.5.0_06版本以上
✧WEB服务器:
Tomcat7.0以上
✧数据库:
MySQL5.0版本以上
✧系统集成:
空中智慧校园短信服务
客户端:
✧IE7及以上、Firefox3及以上浏览器
网络环境
✧内网带宽:
1000M
✧公网带宽:
共享1000M,保证独享10M
✧固定IP地址:
1个静态IP
✧域名:
二级域名1个
第四章产品功能体系
DCI产品实现了针对于数据的清洗与整合处理。
它分别由数据整合管理系统(DCI-MS)、数据整合客户端作业设计器(DCI-Studio)和数据整合执行引擎(DCI-Engine)三个子系统组成,三个子系统在DCI产品中各司其职,扮演着不同的角色,完成各自的业务功能。
DCI-MS在DCI产品中充当DCI作业的管理者角色,在整个数据清洗与整合业务处理过程中,完成DCI作业的综合管理功能,负责调度DCI-Engine执行DCI作业,并对DCI作业的运行进行实时监控,最后完成对DCI作业的数据影响分析。
DCI-Studio在DCI产品中充当DCI作业的设计者角色,在整个数据清洗与整合业务处理过程中,完成DCI作业的创建、编辑以及发布功能。
DCI-Engine在DCI产品中充当的DCI作业的执行者角色,它在整个数据清洗与整合业务处理过程中接受DCI-MS的调度,完成DCI作业的执行功能。
三个子系统组成了最终的DCI产品,实现了对DCI作业的设计、管理、执行、监控和数据影响分析。
四.1数据整合客户端作业设计器
数据整合客户端作业设计器(DCI-Studio),是DCI产品的三大子系统之一,为实施工程师提供了简易友好的DCI作业定义、编辑图形化操作界面。
DCI-Studio作为DCI作业的设计者角色,除了能够在本地创建、编辑DCI作业以外,还实现了与DCI-MS端的远程通信功能。
使用DCI-Studio,实施工程师可以轻松的完成对DCI-MS端DCI作业的创建、编辑、设计和保存的功能。
四.1.1用户身份信息认证
DCI-Studio内置了对实施工程师的身份信息认证机制,保证只有通过身份认证信息的人员才能够使用DCI-Studio进行DCI作业的设计操作。
DCI-Studio对实施工程师进行身份信息认证,采用了账号登录验证和登录超时退出两项措施。
四.1.2DCI作业资源信息库
DCI作业资源信息库中存储了远程DCI-MS端的DCI作业资源文件和本地DCI作业资源文件。
通过DCI作业资源信息库,用户可以直接对这些DCI作业资源进行二次设计开发,而无需重新新建DCI作业。
在DCI-Studio中将DCI作业资源信息库有DCI作业远程资源库和DCI作业本地资源库两种类型。
前者保存了远程DCI-MS端的DCI作业资源文件,后者保存了DCI-Studio本地的DCI作业资源文件。
四.1.3数据库操作控制台
数据库操作控制台是DCI作业设计工作空间中专门用于进行底层数据库访问的图形化操作界面。
它支持常用的数据库SQL语句操作,支持的底层数据涵盖了主流的数据库类型,包括:
Oracle、Mysql、MSAccess、MSSQLServer、IBMDB2、AS/400和Sybase。
数据库操作控制台向用户提供了数据库连接信息管理、图形化SQL语句编辑器和数据库浏览器。
四.1.3.1数据库连接信息管理
数据库连接是描述了DCI作业如何连接到数据库的方法,DCI作业可根据数据库连接访问不同的数据库,达到其数据清洗与整合的目的。
数据库连接管理正是为用户提供了对这些数据库连接信息的创建、浏览、删除以及修改功能。
当DCI作业可以完成对目前市场上大部分主流数据库的访问,完成其数据清洗与转换,包括以下数据库类型:
数据库
访问方法
服务器名称/地址
数据库名称
端口(缺省)
用户名/密码
Oracle
Native
需要
OracledatabaseSID
需要(1521)
需要
ODBC
ODBCDSNname
需要
OCI
DatabaseTNSname
需要
MySQL
Native
需要
Databasename
可选(3306)
密码可选
ODBC
ODBCDSNname
密码可选
MSAccess
ODBC
ODBCDSNname
可选
MSSQLServer
Native
需要
Databasename
需要(1433)
需要
ODBC
ODBCDSNname
需要
IBMDB2
Native
需要
Databasename
需要(50000)
需要
ODBC
ODBCDSNname
需要
AS/400
Native
需要
AS/400Libraryname
可选
需要
ODBC
ODBCDSNname
需要
Sybase
Native
需要
Databasename
需要(5001)
需要
ODBC
ODBCDSNname
需要
四.1.3.2图形化SQL语句编辑器
当实施工程师在进行DCI作业设计的时候,需要创建表、删除索引或者修改字段,有一个图形化的SQL编辑器再好不过了。
DCI-Studio提供的图形化SQL编辑器能完全帮助实施工程师实现这些操作。
四.1.3.3数据库浏览器
数据库浏览器允许实施工程师浏览当前设计DCI作业所连接的数据库。
包括表数据、表结构、表的DDL语句以及在其他数据库中生成该表的DDL语句。
并支持直接在SQL编辑器中生成读取该表数据的SQL语句。
四.1.4DCI作业设计工作区
DCI作业设计工作空间,是DCI-Studio中专门用于DCI作业设计的功能区。
在DCI作业设计工作空间中提供了各种友好的DCI作业设计图形界面,帮助实施工程师完成DCI作业的设计。
其中包括,DCI作业步骤组件库、DCI作业属性编辑器、DCI作业步骤编辑器、DCI作业步骤流程连接。
四.1.4.1使用DCI作业步骤组件库
DCI作业步骤组件是实现了某种的业务处理功能的组件。
一项DCI作业实际上就是由多个DCI作业步骤组件按照具体业务流程组合而成。
DCI作业步骤组件库提供一系列常用的DCI作业步骤组件,比如:
数据库输入输出组件、文本文件输入输出组件、数据排序、合并、去除重复字段等数据处理组件等。
四.1.4.2DCI作业运行调试
DCI作业设计操作空间为DCI作业设计人员提供了验证DCI作业正确性的调试环境。
在DCI作业的调试环境下,用户可以在本地运行DCI作业,查看该DCI作业的运行日志信息、运行结果来分析该DCI作业是否能够正确工作。
四.1.5用户界面设置
实施工程师可以改变很多选项来设置用户操作界面。
用户界面的设置分为操作方式设置和图形样式设置两方面。
操作方式设置功能提供了快速改变DCI-Studio的各种操作体验、习惯的途径,例如:
设置DCI作业设计撤销最大步数、DCI启动提示信息展示等。
图形样式设置功能提供了快速改变DCI-Studio图形化界面的显示样式的途径,例如:
字体设置、对话框背景颜色设置、图标尺寸设置等。
四.2数据整合执行引擎
数据整合执行引擎(DCI-Engine)是DCI产品的三大子系统之一,主要完成了远程集群部署以及并行执行多个DCI作业的功能。
四.2.1快速集成DCI-MS
四.2.1.1数据整合服务远程注册
DCI-Engine在启动之后会自动寻找DCI-MS端进行自己服务的注册,告诉DCI-MS端自己已经准备好接受调度执行DCI作业。
四.2.1.2DCI-Engine集群与DCI-MS集成
DCI-Engine与DCI-MS可以部署在本地局域网中不同的机器上。
同时支持多DCI-Engine的集群部署,集群中的每一个DCI-Engine同时支持部署在局域网中不同的机器上。
所有的DCI-Engine都接受同一个DCI-MS的调度,提供相应的数据整合服务。
四.2.2开放的DCI作业服务接口
四.2.2.1DCI作业执行服务
DCI-Engine接受DCI-MS的调度,能够并行的执行多个DCI作业,如图所示。
四.2.2.2DCI作业运行状态监控服务
DCI-Engine在运行DCI作业的过程中实时的将DCI作业的运行状态反馈至DCI-MS端,并向DCI-MS端提供DCI作业的暂停/恢复、中断服务。
同时还提供作业运行状态一览图,可以直观的看到每个作业的状况。
如图所示。
四.2.2.3DCI作业处理进度监听服务
DCI-Engine在运行DCI作业的过程中实时的将DCI作业的处理进度信息反馈至DCI-MS端,包括:
DCI作业总体数据吞吐量以及DCI作业步骤数据吞吐量,如图所示。
四.2.2.4DCI作业日志信息服务
DCI-Engine在运行DCI作业的过程中完成对DCI作业运行日志的记录,并将日志信息进行临时存储,向DCI-MS端进行反馈,如图所示。
四.2.2.5性能负载信息监控服务
DCI-Engine自启动开始便实时的对本地JVM使用率、物理内存使用率、CPU使用率等本地性能负载信息进行收集,产生其自身的性能快照反馈至DCI-MS端,如图所示。
四.2.3配置信息管理
DCI-Engine提供了一个关于自身参数的配置文件,可以在该配置文件对DCI-Engine的各项参数进行配置。
包括对DCI-MS连接、本地数据整合服务和性能快照缓存、DCI作业运行日志缓存和DCI作业运行进度信息进行配置。
四.2.3.1DCI-MS连接配置
DCI-Engine支持对远程DCI-MS端的连接IP地址、端口号以及服务名称参数通过配置文件的方式进行配置。
DCI-Engine会根据配置的连接信息对DCI-MS端进行远程连接与通信。
四.2.3.2本地数据整合服务配置
DCI-Engine支持对本地提供的数据整合服务进行配置,包括本地服务开放的端口号、服务名称、最大DCI作业并发数量和DCI作业数据文件临时目录等参数。
四.2.3.3性能快照缓存配置
DCI-Engine性能快照是指在某一时间段内,DCI-Engine本地机器的内存消耗、CPU使用率的性能使用信息的副本。
可在配置文件中对DCI-Engine性能快照缓存的容量、最长保存时间参数进行配置。
四.2.3.4DCI作业运行日志缓存配置
DCI作业运行日志是指DCI作业在DCI-Engine本地运行所产生的日志信息。
DCI-Engine对这些日志信息进行了临时性的存储。
可以在配置文件中对DCI-Engine存储DCI作业运行日志的缓存进行容量和最长保存时间的配置。
四.2.3.5DCI作业运行进度信息缓存配置
DCI作业运行进度信息是指DCI作业在运行过程中的数据整合吞吐量以及D
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 共享 数据中心 DCI 数据 清洗 整合 技术 白皮书