东方通ETL工具软件TIETLv2产品白皮书全解Word格式文档下载.docx
- 文档编号:21821387
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:14
- 大小:697.52KB
东方通ETL工具软件TIETLv2产品白皮书全解Word格式文档下载.docx
《东方通ETL工具软件TIETLv2产品白皮书全解Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《东方通ETL工具软件TIETLv2产品白皮书全解Word格式文档下载.docx(14页珍藏版)》请在冰豆网上搜索。
IT建设随业务发展,业务过程以数据贯穿,即业务有效性的基础是数据,且有效性又包含可获得性、及时性、准确性和一致性。
在信息化早起,因信息系统较少、业务关系复杂度较低,对数据关注度也较低。
随着各单位自身的发展,内部组织机构、多级组织机构建设愈发全面,业务关系也愈发复杂,各内部组织以及跨不同单位之间均会因为业务关联产生数据有效关联、互用的需求。
例如单位内人力作为人资管理的职能部门,新人入职、人员在部门间调动、人员岗位晋升等人员变动情况会影响向财务、档案、信息管理等多个部门的业务,包括工资涨降、档案归档、固定资产关联等等,即人资信息发生变化时需要其它同样存储了该信息的业务部门也能够自动完成信息变更。
例如部委需要从各下级委办局汇总数据,各委办局业务系统可能是分别由不同厂商建设,虽然是处理同样的业务,但业务系统存储数据的格式和方式不同。
以数据项“部门名称”为例,有的业务系统存储是的汉字,也的存储的可能是数字编码,此时虽然数据都能汇总到一起,但数据却无法合并,即使汇总后也可能无法支撑业务。
2.2IT需求
数据大多以数据库、文件为存储载体,数据库和文件又存在多个品牌和版本,所以业务数据往往是分散在不同品牌、版本的数据库和文件中,业务系统间能够按需的互用数据则需要通过IT手段实现对不同数据源的按需适配、按需采集、按需处理、按需装载以及通过图形化界面操作定义数据间的关系和处理逻辑,实现一次定义长期有效执行,同时提供全局的可视化监控管理,能够随时掌握业务间数据交互的有效性。
2.3IT与业务一致性要求
“按需”是业务诉求,对应IT则包括了采集、加工处理、装载、监控、运维、管理等技术要求,以满足业务层面对可获得性、及时性、准确性、一致性的需求,多以ETL产品和技术实现IT支撑:
(1)ETL提供多种数据源适配组件,可与多种主流数据库、文件、通信协议进行对接,保障采集的全面适配,提供高可获得性。
(2)ETL提供触发器、时间、CDC等多种数据采集模式,可根据业务对及时性的定义以及业务数据存储的现状选择不同模式,并且提供并行等高效处理机制,提供高及时性。
(3)ETL提供丰富的数据加工处理组件达到100+,且可根据业务规则灵活拼接处理流程,提供高准确性和高一致性。
(4)ETL提供基于Web的监控管理中心,在满足核心业务需求的同时提供易用、可视的运维、监控、管理、监视的统一管理能力。
3TI-ETLv2简介
东方通数据集成产品TI-ETL,提供对企业数据的集成处理功能。
通过TI-ETL产品,用户可以从不同结构的数据源中抽取数据(Extract),对数据进行复杂的加工处理(Transform),最后将数据加载到各种存储结构中(Load)。
例如实现从多个异构的数据源(不同数据库、结构化文件等)抽取数据,并加工成统一的数据格式,最后加载到数据仓库中,供商业智能(BusinessIntelligent,BI)等应用使用。
TI-ETL提供一个简单易用的开发、管理工具,提供覆盖从数据集成逻辑的设计、开发、调试、部署,到运行、管理、监控各个生命周期不同阶段的集成开发工具。
通过TI-ETL可以实现对数据集成流程的开发和部署;
通过监控和日志功能,可以实现对数据集成的运行过程进行实时监视,对集成流程历史数据进行分析。
TI-ETL提供了一个强健、高效的数据处理引擎,支撑各种复杂的数据转换流程、任务调度流程的高效运行。
引擎采取异步并行处理的技术,实现流程中的每个组件多线程并行高效处理;
支持集群部署方式,允许将转换或转换中的比较耗时的数据处理组件部署在多台服务器上并发执行,从而将转换的工作分摊到多台服务器上,从而提高TIETL的数据处理效率。
TI-ETL基于Java技术和标准数据库接口(JDBC、ODBC等),支持部署在各种主流操作系统和国产操作系统上,支持与各种主流数据库、开源数据库、国产数据库的接入,支持对各种结构化/非结构化格式文件的读写,以及通过多种协议与其他应用系统的交互。
TI-ETL提供大量的任务组件和转换组件,如多源的数据合并、数据的路由、数据行列转换、字典表查询、定时重启、循环调度、流程告警等,用户可以通过拖拽方式快速完成各种复杂的数据集成需求和集成的调度控制,无需人工编码,快速构建数据集成应用。
TI-ETL提供Web形式的统一管理平台,用于将分布式网络环境中部署的TI-ETL服务器运行实例及运行在TI-ETL服务内的任务流程集中统一管理监控。
提供功能级和数据集的权限管理,可定义的错误告警机制,自定义面板等。
同时管理平台提供丰富的管理RestAPI接口和方便的管理扩展机制,方便客户集成统一管理平台并扩展自己的插件集成到平台中。
3.1产品组成结构
TI-ETL产品架构由集成开发工具TI-ETLStudio、TI-ETL服务器、资源库、统一管理平台四大核心部分组成,如下图所示。
图:
TI-ETLv2产品组成结构
3.1.1集成开发工具
TI-ETLStudio集成开发工具是一个集开发、调试、配置、部署、执行、监控、日志、管理等功能于一体的平台。
通过该平台实现从数据集成需求到实现的快速转化,并实现对整个生命周期的管理。
Ø
开发/调试
TI-ETLStudio提供大量的任务组件和转化组件,通过这些组件,以图形化的方式,实现数据集成流程的快速编排。
TI-ETLStudio还提供了功能强大的调试预览功能,可以在开发过程中实现数据行级别的调试和预览,跟踪和观察每一行数据经过数据集成流程中每一个转化组件进行加工处理的结果。
通过集成开发工具开发调试完成的数据集成流程保存到资源库中统一存储管理。
远程管理
TI-ETLStudio通过ETL服务器的远程接口,实现对服务器的管理。
包括数据集成流程的分布式部署、远程执行、对执行状态的实时监控、对执行日志进行查看和分析。
TI-ETLStudio的监控管理功能可以对运行中的流程执行暂停、开始、停止、解部署等控制,同时还可以对数据处理状态进行实时监控,包括每个组件处理的记录数、过滤的记录数,并且可以得到每个组件处理数据的性能指标和整个集成流程的性能指标。
3.1.2服务器
TI-ETL服务器是一个TI-ETL的逻辑节点,包含对数据集成流程的执行能力,并通过HTTP协议对外开放对服务器的管理接口。
ETL引擎
TI-ETL服务器包含两个执行引擎:
任务引擎和转换引擎,分别实现对任务调度管理的任务流程和完成对实际数据抽取、加工处理、加载的转换流程的执行。
在TI-ETL服务器启动时,可以检查部署在该节点上的数据集成流程,并执行配置为“自动重启动”的流程,其他非自动重启动的流程需要手工启动。
在TI-ETL数据流程中,数据是以行为单位进行处理,如下图所示,TI-ETL通过两个对象描述一个数据行:
数据对象和元信息对象。
数据对象实际的行数据,由一个或多个数据列(字段)组成;
元信息对象用于描述数据对象,包括数据对象中每个列(字段)的类型、长度、格式等。
监控管理接口
TI-ETL服务器还提供了对运行时的监控和管理功能,这些功能通过Java、HTTP、REST等多种封装形式对外开放。
通过这些接口,第三方应用可以将监控管理功能集成到自己的管理控制台中进行统一监控管理,实现对TI-ETL的远程管理,如流程部署、流程控制、转换监控、日志查看等功能。
认证授权
TI-ETL服务器提供了完善的认证授权机制,只有通过认证和授权的用户,才可以通过监控管理接口实现对服务器的管理和监控。
3.1.3资源库
TI-ETL资源库用于持久化存储TI-ETL的元数据,包括ETL服务器的配置信息、任务流程信息、转换流程信息、基础资源信息(如数据库连接)等。
TI-ETL提供基于关系型数据库和文件系统两种类型的资源库。
一般文件系统资源库为本地库,在开发阶段使用;
基于关系型数据库的资源库为共享库,可以作为开发库和生产库使用。
TI-ETLStudio可以连接多个资源库,在数据集成的开发调试阶段,可以将任务流程、转换流程和其他资源存储在开发库中。
而对于已经完成开发调试,进入发布阶段的流程,可以方便的导入到生产库。
TI-ETL服务器也可以配置一个或多个资源库,并可以根据部署描述符从资源库中获取实际的流程信息,根据这些信息实例化实际运行的集成流程。
资源库的使用不仅可以方便数据集成流程的开发和管理,还可以有效提高数据集成流程的部署效率。
3.1.4统一管理平台
TI-ETL统一管理平台,用于将分布式网络环境中部署的TI-ETL服务器运行实例集中统一管理。
统一管理平台,提供对服务器、部署在服务器里的任务流程、转换流程的运行状态、运行日志、执行性能进行查看,远程的启动、停止、暂停、恢复等操作;
提供统一的权限管理功能,包括用户、组织机构、角色的定义,以及从功能级、数据级等对用户进行细粒度的授权;
提供错误告警功能,允许用户自定义告警规则,支持从告警对象、告警类型、告警级别、告警信息内容等信息中提取关键字定义接受规则、拒绝规则,只有符合规则的告警信息才通知用户,并支持用户自定义告警方式,默认为邮件通知;
提供对服务器所在物理机器的CPU、内存、硬盘资源、网络IO等性能指标进行实时监控。
统一管理平台提供对分布式环境下交换拓扑的管理,可对方便直观的以拓扑形式来管理交换节点以及数据交换链路。
统一管理平台,提供自定义面板功能,允许用户将自己关注的功能、监控对象等定义在一个页面上集中展示,并支持将自定义的面板设置为平台主页,每次登录时直接进入到该面板,非常方便管理人员。
默认提供ETL监控概览面版,可以对用户关注的对象资源(服务器、任务、转换等)集中配置到一个视图中集中监控,如下图:
统一管理平台提供基于OSGI技术的插件管理功能,非常方便地安装和卸载已有的功能插件,同时提供插件开发机制和规范,方便用户扩展开发自己的插件并集成到平台中,集中管理自己的应用。
3.2产品结构关系
TI-ETL四大组成部分的关系如下图所示。
使用TI-ETL的具体开发步骤如下:
(1)开发人员使用TI-ETL的集成开发工具,进行流程的开发和调试工作;
(2)开发调试完成的流程所有相关信息,统一存储到TI-ETL资源库中,作为团队资源共享及运行时引用;
(3)开发调试完成的流程ID信息(流程引用信息),部署到TI-ETL服务器上;
运行时,根据流程ID信息从TI-ETL资源库中获取流程配置信息;
(4)管理人员使用TI-ETL的集成开发工具提供的监控功能,或者通过统一管理平台、或者直接使用监控管理接口,从TI-ETL服务器中获取流程监控信息,或者远程控制服务器、流程的运行状态。
3.3转换流程和任务流程
TI-ETL通过转换流程、任务流程这两种流程配合,可以完成不同系统间的复杂的数据整合工作。
3.3.1转换流程
转换流程负责完成数据集成过程中的数据抽取、转换、加载工作,转换流程由多个转换组件编排而成。
转换组件是转换流程的最小处理单元,每个转换组件完成一个特殊的数据处理任务,多个转换组件组成一个转换流程。
正是因为TI-ETL有丰富的转换组件,使得TI-ETL具备高水准的数据加工处理能力。
TI-ETL提供的转换组件如下图所示:
下图给出了一个转换流程的示例,它是将不同的转换组件编排在一起,完成了增量数据获取、数据内容判断、过滤、错误数据处理等一系列的数据加工过程。
3.3.2任务流程
任务流程负责整个数据集成过程的调度和管理,如定时执行、周期执行、告警等。
任务流程一般由转换流程组成,从这一点上讲,也可以把任务流程看作转换流程的调度者,可以对多个转换流程和其他任务流程(子流程)进行流程编排。
当然,任务流程也可以由多个任务组件编排而成。
任务组件就是任务流程的最小处理单元,如开始组件负责启动任务流程,可以设定任务流程的执行方式,如一次性任务,定时启动的任务,循环性的任务等。
TI-ETL提供的任务组件如下图所示:
下图给出了一个任务流程示例,它定义了一个任务的启动方式,然后要查看文件目录是否存在文件,如果不为空,调度转换流程完成相应的数据加工工作,如果出错,可以通过邮件任务组件发邮件通知维护人员,如果正常就调用其他任务流程的过程。
4主要功能和特点
4.1大数据适配
提供HBase的输入/输出转换组件,支持与非关系型数据库HBase进行数据交互。
提供HadoopHDFS文件拷贝的任务组件,支持复制文件到HDFS和复制HDFS文件到本地。
可连接的数据库类型支持HadoopHive,SQL查询组件支持编写HiveSQL进行数据查询。
ApacheHbase
ApacheHadoop
ApacheHive
0.98
2.4.x
1.0.0
0.94
1.2.x
4.2强健的ETL引擎
提供任务引擎和转换引擎,支撑各种复杂的数据转换流程、任务调度流程的高效运行,为大块、大批量、异构的数据的整合提供坚实保障。
4.3丰富的系统适配
基于标准的JDBC、ODBC接口,实现对各种主流数据库系统的支持。
如Oracle、DB2、SQLServer、Sybase、InfoMix等主流数据库,MySQL、PostgreSQL等开源数据库,达梦、汉高、神通、GBase8t、KingBase等国产数据库。
提供丰富的数据文件抽取和加载组件,支持包括普通文本、CSV、XML、Excel等多种格式的文件。
支持HTTP、JMS、FTP、WebServices等协议和其他应用系统进行交互。
4.4资源统一存储
资源库为TI-ETL的元数据提供了统一的存储机制,并对元数据提供各种管理功能,同时资源库还为TI-ETL的分布式部署提供支撑。
4.5丰富的处理组件
TI-ETL内置大量的任务组件和转换组件,用户可以通过拖拽的方式快速完成各种复杂数据集成需求和集成的调度控制。
提供的转换组件覆盖数据映射、数据丰富、数据计算、数据验证、数据排序、数据合并、数据拆分、数据生成、数据去重、数据分组、行列转换等复杂处理,提供的任务组件涵盖定时调度、周期循环调度等调度模式组件、以及数据处理的一些前置、后置检查操作等。
4.6多种数据抽取模式
支持各种数据抽取模式,如全量同步、增量同步CDC(基于触发器、基于时间戳、全表比对、基于数据库日志分析)、单向同步、双向同步、文件目录同步等。
基于数据库日志分析的增量抽取支持数据库:
Oracle,SqlServer2008,Mysql5。
4.7图形化操作/调试/预览能力
通过TI-ETL内置的大量组件和TI-ETLStudio的可视化图形界面,使用人员无需编码,既可以灵活、方便地定制出各种数据集成流程,又能够减少手工代码的错误,还可以利用调试预览及时发现潜在错误,提升集成质量,并能对ETL服务器和资源库进行管理,全面提高集成速度。
4.8高效数据处理
TI-ETL采用异步并行处理的方式实现数据的高效处理,数据在TI-ETL中类似于流水线上的产品,逐行流经流程中的每个组件,每经过一个组件就被加工成一个既定格式的中间状态。
数据经过一个组件的处理后被迅速交给下一个组件处理,同时当前的组件已经开始处理新的数据。
TI-ETL提供集群部署方式,允许将转换或转换中的比较耗时的数据处理组件部署在多台服务器上并发执行,从而将转换的工作分摊到多台服务器上,提高TI-ETL的数据处理效率。
在某国产一体机硬件环境下,TI-ETL的处理效率达到4.5+万条/秒。
4.9异常恢复和数据一致性
任务流程提供多个调度机制和异常恢复机制,在异常后,支持自动和手动恢复。
异常恢复可以保证恢复的流程从异常点开始重新同步,保证数据的最终完整性和一致性。
4.10强大的监控管理功能
提供基于JS+REST技术规范的前端界面和后台数据提供相分离的统一管理平台,界面风格符合扁平化设计潮流。
提供对分布式网络环境中部署的TI-ETL服务器运行实例集中统一管理,包括对服务器、流程的运行状态、运行日志、执行性能的查看,以及远程的启动、停止、暂停、恢复等管理操作,支持统一的权限管理配置、错误告警等功能。
提供插件管理机制,方便用户安装、卸载已有的功能插件,允许用户自定义自己的功能插件,并集成到统一管理平台中。
提供自定义面板功能,方便用户在一个视图中集中展示自己关注的内容。
提供Java、HTTP、REST等多种封装形式的监控管理接口,方便用户快速将监控管理功能集成到自己的平台中。
4.11插件式组件管理和可扩展性
提供插件式的组件管理机制,对于特殊的场景,可以方便的进行扩展开发,如客户自定义结构的文本进行转换组件的定制开发、专有的应用系统进行适配器的定制开发等,并以插件的方式集成到TI-ETL中使用。
4.12国产环境支持
TI-ETL的图形化集成开发工具、服务器、资源库和统一管理平台均支持国产中标麒麟操作系统和国产龙芯、飞腾芯片。
5成功案例
全国32个省份通过京云万峰和清华同方两家公司的直报系统进行采集数据,将企业填报的数据存储到各省的直报系统中,然后再同步到国家的企业直报系统中。
虽然京云万峰和清华同方开发的“企业一套表”系统都遵循了“企业一套表”制度,但在具体实现中数据存储格式、标识字段、元数据设计等都不一致,京云万峰和清华同方的两套“企业一套表”系统均无对方系统采集的业务数据,从而专业司无法直接统计汇总全国的企业信息。
因此,需要在国家局节点以数据交换同步的方式将清华同方统和京云万峰采集的70万家企业的数据同步到对方数据库中,保证国家专业司可以汇总全国的数据。
“企业一套表”制度包括近300+张报表,涉及2000多个定义完全不同的指标字段、变长和定长二维表的不同存储格式、关联查询、条件判断、行转列、列转行等多种复杂处理要求。
在业务上需要考虑多个报告期的不同指标、不同报表不同处理需求、同一指标不同报表不同定义等需求,并通过大量数据关联查询、判断、行转列、列转行等复杂处理实现数据的同步。
快速集成
TI-ETL内置大量的任务组件和转换组件,可以通过拖拽的方式快速完成各种复杂数据集成需求和集成的调度控制,快速完成由于统计报表指标变化带来的处理流程的变更。
高效数据处理
TI-ETL采用并行处理的方式实现数据的高效处理,保证了从数据上报完成到各专业司进行国家数据统计汇总中间1-2天时间内完成数据的同步的繁重任务。
多种同步模式
TI-ETL支持各种数据抽取模式,如全量同步、增量同步(触发器、CDC)、双向同步等。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 东方 ETL 工具软件 TIETLv2 产品 白皮书