ELT平台操作手册KETTLE.docx
- 文档编号:9203566
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:99
- 大小:2.18MB
ELT平台操作手册KETTLE.docx
《ELT平台操作手册KETTLE.docx》由会员分享,可在线阅读,更多相关《ELT平台操作手册KETTLE.docx(99页珍藏版)》请在冰豆网上搜索。
ELT平台操作手册KETTLE
智能数据比对系统ELT平台操作手册
【用户手册】
广州市灵讯通信科技有限公司
2011-01-7
第1章系统介绍
1.1系统简介
ETL平台用于数据的抽取、转换、加载,为数据比对提供数据的采集、转换、导入、导出等功能。
第2章系统管理
2.1基本概念
1、数据库连接:
用户自定义的,在转换或作业中使用的数据库连接。
2、转换:
数据抽取、转换、加载流程的封装。
3、作业:
将多个转换或一些任务封装,用于ETL任务的执行。
4、知识库:
固定存储已建立好的连接、转换或作业的位置。
5、数据流:
分输入流和输出流,输入流是离开一个步骤时的行的堆栈,输出流是进入一个步骤时的行的堆栈。
6、节点连接:
连接两个步骤的连线。
2.2主界面介绍
【功能描述】
1、浏览和管理知识库。
2、增加数据库连接。
3、增加转换或作业。
4、导入、导出XML文件。
【操作步骤或操作内容】
功能1:
浏览和管理知识库
1、用户进入ETL平台,点击『知识库』页签,可浏览知识库,如下图所示:
2、双击其中一个数据库连接、采集作业或转换,可打开相应的页面,进行查看、运行、修改和删除。
功能2:
增加数据库连接
单击
图标,选择『新建数据库连接』选项,打开如下图所示窗口:
连接类型:
选择数据库类型。
访问方法:
推荐使用JDBC。
连接名称:
用户自定义。
服务器主机:
填写数据库服务器IP地址。
数据库名称:
填写数据库名称。
数据库表空间:
填写数据库的用户数据表空间名称。
索引表空间:
填写数据库的索引表空间名称。
端口号:
填写数据库使用的端口号。
用户名和密码:
登陆数据库的用户名和密码。
功能3:
增加转换或作业
单击
图标,选择『新建转换』或『新建转换』选项。
功能4:
导入、导出XML文件
单击
图标,可将建立好的转换或作业导出为XML文件,存储在本地,也可从本地XML文件导入到知识库。
2.3基本功能
【功能描述】
1、转换管理。
2、作业管理。
3、节点连接类型。
【操作步骤或操作内容】
功能1:
转换管理
1、新建或打开一个转换,可看到转换设计页面,如下图:
2、单击主对象树,可将菜单中的转换步骤拖到转换设计页面中。
3、单击
可运行转换。
4、右键单击空白区域,可设置转换的属性。
功能2:
作业管理
1、新建或打开一个作业,可看到作业设计页面,如下图:
2、单击主对象树,可将菜单中的作业步骤拖到作业设计页面中。
3、单击
可运行作业。
4、右键单击空白区域,可设置作业的属性。
功能3:
节点连接类型
1、在一个节点处按住SHIFT拖动鼠标到另一节点可建立节点连接。
2、改变开始复制的数量
有时候多次运行相同的步骤是非常有用的。
例如,执行一个数据库查询三次或者三次以上,这是因为数据库连接通常有一个反应时间,改变步骤运行的次数,可以有效的减少反应时间,提高效率。
要运行一个步骤的多个副本,你只要在图形界面的步骤上点击鼠标右键,选择“改变开始复制的数量…”
3、分发或复制
分发表示所有的行被平均分发到各个目标步骤,复制表示所有行被复制到全部目标步骤。
4、串行或并行
仅用在作业中,默认串行,右键单击作业步骤,选择并行,可并行运行一个作业中的各个分步骤。
5、有连接条件和无条件连接
仅用在作业中,用于控制连接生效的条件,可设置上一步骤运行成功则运行下一步骤,或上一步骤运行失败则运行下一步骤,或无论成功或失败都运行下一步骤,即无条件连接。
如下图:
带平行线表示是并行连接;绿色表示该连接生效(灰色表示失效);勾号表示结果为真运行下一步骤,圆圈表示结果为假运行下一步骤,锁标志表示无条件连接。
第3章转换步骤
文本文件输入
【功能描述】
可通过此步骤读取大量不同的文本文件,可指定读取的文件列表,或者用正则表达式表示的目录列表。
【操作步骤或操作内容】
功能1:
文件名称指定
1、指定文件名后,并按“增加”按钮,你可以添加一个文件到“选择文件”中,如下所示:
2、你也可以用指定正则表达式通配符的形式来搜索文件。
正则表达式比简单的用“?
”和“*”通配符更有效。
文件名
正则
选择的文件
/dirA/
.*userdata.*/.txt
所有在/dirA/目录下的并且文件名包含userdata、以txt为后缀的文件。
/dirB/
AAA.*
所有在/dirB/目录下的并且文件名以AAA开头的文件。
/dirC/
[A-Z][0-9].*
所有在/dirC/目录下的并且文件名以字母开头、紧接着一个数字的文件。
功能2:
内容指定
1、内容标签允许你指定正在读取的文本文件的格式:
2、下面是标签的选项列表:
选项
描述
文件类型
可以是CSV或者Fixedlength(固定长度)。
分隔符
在文本的单行中,一个或多个字符将被用来分隔字段,
比较有代表性的是;或者一个tab制表符。
封闭字符
一些字段能够被一对允许分隔的字符来封闭。
封闭字符
串是可选的。
逃逸字符
如果你的数据中有逃逸字符,就指定逃逸字符(或者逃
逸字符串)。
如果\作为逃逸字符,文本’Notthenine
o\’clocknews.’(’作为封闭字符),将被解析成Not
thenineo’clocknews.
头部/头部行数量
如果你的文本文件有头部行就使用这个。
你可以指定头
部行出现的次数。
尾部/尾部行数量
如果你的文本文件有尾部行就使用这个。
你可以指定尾
部行出现的次数。
包装行/包装行数量
利用这个来处理被某些页限制包装的数据行。
注:
头部
和尾部从来不考虑被包装。
分页布局/每页行数/文档头部行
在行打印机上打印的时候,你可以用这个选项作为最终
的手段。
用头部行的数量来跳过介绍性的文本,用每页
的行数来定位数据行。
压缩
如果你的文件是ZIP文件或者GZIP归档文件,就启用
这个。
注:
此刻归档文件中仅仅第一个文件被读取。
没有空行
不往下一步发送空行。
输出包含文件名
如果你想文件名作为输出的一部分,可以启用这个。
文件名字段名称
包含文件名的字段名称。
输出行数
如果你想行数作为输出的一部分,可以启用这个。
行数字段名称
包含行数的字段名称。
根据文件获取行数
允许每个文件重置的行数。
格式
可以是DOS、UNIX或者混合模式。
UNIX行终止可以是
回车,DOS中可以是回车或者换行。
如果你选择混合模
式,将不会验证。
编码方式
指定文本文件编码方式。
如果不设置就使用系统默认的
编码方式。
如果想用Unicode,可以指定UTF-8或者
UTF-16。
第一次使用的时候,Spoon将搜索系统,寻找
可用的编码。
记录数量限制
设置读取记录的行数。
0代表读取所有的。
解析日期时是否严格要求
如果你想严格的解析数据字段,可以禁用这个选项。
如
果启用的时候,Jan32nd将变成Feb1st。
本地日期格式
在本地日期常常被解析为“Februarywnd,2006”的形
式,在用法语本地化的系统中日期将不会被解析,因为
在法语本地化中February不能理解。
功能3:
错误处理
1、当错误发生的时候,错误处理标签允许你指定这个步骤将重新做些什么。
2、下面是标签的选项列表
选项
描述
忽略错误
如果在解析的时候忽略错误,就指定这个选项。
跳过错误行
使用这个选项来跳过那些出现错误的行。
你可以生成另外的文件来包含发生错误的行号。
如果不跳过错误行,解析错误字段将是空的。
错误计数字段
在输出流行中增加一个字段,这个字段将包含错误发生的行数。
错误字段字段名
在输出流行中增加一个字段,这个字段将包含错误发生的字段名称。
错误文本字段名
在输出流行中增加一个字段,这个字段将包含解析错误发生字段的描述。
警告文件目录
当警告发生的时候,它们将被放进这个目录。
文件名将是<警告目录>/文件名.<日期时间>.<警告文件扩展>。
错误文件目录
当错误发生的时候,它们将被放进这个目录。
文件名将是<错误文件目录>/文件名.<日期时间>.<错误文件扩展>。
失败行数文件目录
当解析行的时候发生错误,行号将被放到这个目录。
文件名将是<错误行目录>/文件名.<日期时间>.<错误行扩展>。
功能4:
过滤
1、在“过滤”标签中,你可以指定文本文件中要过滤的行。
2、下面是标签的选项列表。
选项
描述
过滤字符
搜索字符串。
过滤位置
在行中过滤字符串必须存在的位置。
0是起始位置,如果你指定一个小于0的值,过滤器将搜索整个字符。
停止在过滤器
如果你想在文本文件遇到过滤字符的时候,停止处理,就指定Y。
功能5:
字段
1、设定要导入的字段。
2、选项。
选项
描述。
名称
设置要在输出流中显示的字段名称。
类型
字段类型(String、Date、Number等)。
长度
对于Number:
有效数的数量。
对于String:
字符的长度。
对于Date:
打印输出字符的长度(例如4代表返回年份)。
精度
对于Number:
浮点数的数量。
对于String,Date,Boolean:
未使用。
货币类型
用来解释如$10,000.00的数字。
小数
小数点可以是”.”(10;000.00)或者”,”(5.000,00)。
分组
分组可以是”.”(10;000.00)或者”,”(5.000,00)。
如果为空
空值如何处理。
默认
字段为空的时候的默认值。
去空字符串
处理之前先去空。
重复
Y/N:
如果在当前行中对应的值为空,则重复最后一次不为空的值。
3.2表输入
【功能描述】
这一步常常用来利用连接和SQL,从数据库中读取信息。
自动生成基本的SQL语句。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
步骤名称
步骤的名称,在单一的步骤中,名称必需唯一。
连接
读取数据的数据库连接。
SQL
SQL语句用来从数据库连接中读取数据。
从步骤插入数据
指定我们期待读取数据的步骤名称。
这些信息能被插入到SQL语句。
限制
设置从数据库中读取的行数。
0所有行。
示例:
指定如下SQL语句:
注:
日期可以从“获取系统信息”步骤类型中获取。
3.3EXCEL输入
【功能描述】
这个步骤从EXCEL文件输入数据。
【操作步骤或操作内容】
功能1:
指定文件名
参考3.1文本文件输入
功能2:
指定内容
选项
描述
头部
检查是否工作表指定了一个头部行。
非空记录
检查是否不需要空行输出。
停在空记录
当步骤在读取工作表遇到一个空行的时候停止读取。
限制
限制输出的行数,0代表输出所有行。
功能3:
字段和错误处理
参考3.1文本文件输入
3.4CSV文件输入
【功能描述】
这个步骤从CSV文件输入数据。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
文件名
CSV文件名。
分割符
文件中使用的分割符。
#附件
只将符号内的字符串输入。
NIO的缓冲区大小
定义缓冲区大小。
延迟转换
是否延迟转换。
标题行存在
是否去掉标题行。
添加文件名到结果
是否在结果中输出文件名。
行号字段
行号字段命名。
并行运行
指定并行属性。
文件编码
选择字符集编码。
3.5文本文件输出
【功能描述】
这个步骤将数据流输出到文本文件。
【操作步骤或操作内容】
功能1:
指定文件
选项
描述
文件名称
输出文件名。
以命令行方式运行
根据指定,把结果输出到命令行或者脚本。
扩展名
在文件名的最后添加一个点和扩展名(.txt)。
文件名里包含步骤数
如果你在多个拷贝中运行步骤,拷贝的数量将包含到文件名中(在扩展名之前)。
文件名包含分区
文件名中包含数据分区数量。
文件名包含日期
文件名中包含系统日期(_20041231)。
文件名包含时间
文件名中包含系统时间(_235959)。
特殊日期格式
指定特殊日期格式。
功能2:
指定内容
选项
描述
追加
是否在指定的文件最后追加行。
分隔符
指定在文本中分隔字段的字符,例如;或者制表符。
封闭符
封闭字段的一对字符。
可选。
头部
如果你想有一个头部行,使这个选项可用(文件第一行)。
尾部
如果你想有一个尾部行,使这个选项可用(文件最后一行)。
格式
DOS或者UNIX。
UNIX文件行分隔符是换行符。
DOS文件可以是换行符或者回车符。
编码
指定文件使用的编码。
如果空白就使用系统缺省的编码。
压缩
指定压缩的类型(zip或者gzip)。
长度固定
在字段最后添加空格或者删除字符,直到长度达到指定。
快速数据导出
当处理大量数据到一个文本文件时,提高性能。
(不包含任何格式化信息)。
分拆…每一行
如果N比0大,用N行拆分文本文件,分割成多个部分。
增加文件结束行
指定输出文本的结束行。
功能3:
指定字段
参考3.1文本文件输入
3.6表输出
【功能描述】
这个步骤将数据导入数据库表。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
连接
用来写数据的数据库连接。
目标模式
数据库的模式名。
目标表
要写数据的表名。
提交记录数量
在数据表中用事务插入行。
如果N比0大,每N行提交一次连接。
否则,不使用事务,速度会慢一些。
裁剪表
在第一行数据插入之前裁剪表。
忽略插入错误
使Kettle忽略比喻违反主键约束之类的插入错误,最多20个警告将被日志记录。
在批量插入的时候这个功能不可用。
使用批量插入
如果你想批量插入的话,就使用这个选项。
这个选项的速度最快,默认被选上。
表分区数据
使用这个选项可以在多个表之间拆分数据。
表名定义在一个字段
使用这些选项可以拆分数据到一个或者多个表里,目标表名可以用你指定的字段来定义。
例如如果你想存储顾客性别数据,这些数据可能会存储到表M和表F里面(female女性和male男性表)。
这个选项可以阻止这些字段插入到对应的表里。
返回一个自动产生的关键字
往表中插入行时,是否产生一个关键字。
自动产生关键字的字段名称
指定包含关键字的输出字段的字段名称。
指定数据库字段
只导入指定的字段,多余的字段忽略。
功能2:
字段值与数据流对应
3.7EXCEL输出
【功能描述】
这个步骤将数据写入EXCEL表。
【操作步骤或操作内容】
功能1:
指定文件
选项
描述
文件名和扩展名
用于指定输出文件。
不要在启动时创建文件
只写入已存在文件。
文件名里包含步骤数
允许文件并行创建,并在文件名里包含步骤数。
文件名里包含日期
在文件名里包含日期。
文件名里包含时间
在文件名里包含时间。
指定日期时间格式
指定日期时间格式。
添加文件名到结果中
输出字段中包含文件名字段。
功能2:
指定内容
选项
描述
追加
追加记录。
头
检查表单是否有头部。
脚
检查表单是否有尾部。
编码
指定EXCEL表单使用的编码。
分割所有行
分割数据到几个输出文件中。
使用模板
输出的EXCEL数据是否使用模板。
EXCEL模板
格式化EXCEL输出的模板的名称。
追加EXCEL模板
是否将EXCEL输出添加到指定的EXCEL模板中。
功能3:
指定字段
指定你想输出到EXCEL文件中的字段
3.8插入/更新
【功能描述】
这个步骤利用查询关键字在表中搜索行。
如果行没有找到,就插入行。
如果能被找到,并且要被更新的字段没有任何改变,就什么也不做。
如果有不同,行就会被更新。
。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
连接
用来写数据的数据库连接。
目标模式
数据库的模式名。
目标表
要写数据的表名。
提交记录数量
提交之前要改变(插入/更新)的行数。
不执行任何更新
如果被选择,数据库的值永远不会被更新。
仅仅可以插入。
用来查询的关键字
可以指定字段值或者比较符。
可以用以下比较符:
=,
<>,<,<=,>,LIKE,BETWEEN,ISNULL,ISNOTNULL。
更新字段
指定你想要插入/更新的字段。
3.9更新
【功能描述】
这个步骤查找当前数据库符合要求的记录,并更新指定字段。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
连接
用来写数据的数据库连接。
目标模式
数据库的模式名。
目标表
要写数据的表名。
提交记录数量
提交之前要改变的行数。
跳过扫描
不执行查询。
忽略查询失败
如果被选择,则查询失败时不执行任何操作。
用来查询值的关键字
可以指定字段值或者比较符。
可以用以下比较符:
=,
<>,<,<=,>,LIKE,BETWEEN,ISNULL,ISNOTNULL。
更新字段
指定你想要更新的字段。
3.10删除
【功能描述】
这个步骤查找当前数据库符合要求的记录,并删除。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
连接
用来写数据的数据库连接。
目标模式
数据库的模式名。
目标表
要写数据的表名。
提交记录数量
提交之前要改变的行数。
查询值所需的关键字
可以指定字段值或者比较符。
可以用以下比较符:
=,
<>,<,<=,>,LIKE,BETWEEN,ISNULL,ISNOTNULL。
3.11调用DB存储过程
【功能描述】
这个步骤允许你运行一个数据库存储过程,获取返回结果。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
连接
存储过程所有的数据库的连接名称。
存储过程名称
调用的存储过程或者函数名称。
自动提交
在运行存储过程的时候自动提交。
返回值名称
调用存储过程或者函数返回结果的名称。
返回值类型
调用存储过程或者函数返回结果的类型。
参数
存储过程或者函数需要的参数列表。
3.12Switch分支
【功能描述】
这个步骤允许你将数据流按条件分流,输送到不同的下一个步骤。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
字段名称转换
待判断分流条件的字段名。
使用字符串包含
开启模糊匹配。
类型
选择数据类型。
格式表达式
指定数据的格式(数字格式或日期格式)。
小数点符号
指定小数点符号。
分组符号
指定分组符号。
值
指定不同的值,以及相应的目标步骤。
3.13修改JavaScript的值
【功能描述】
这个步骤允许你用JavaScript语言做复杂的运算。
【操作步骤或操作内容】
功能1:
指定选项
✧Java脚本功能
针对可用的脚本、函数、输入字段和输出字段,提供一个树菜单浏览。
✧脚本
这个区域为你提供脚本的编辑。
你可以插入函数、常量、输入字段等等。
✧字段
字段表包含了脚本变量的列表,其中包括元数据。
✧获取变量
获取脚本中的变量列表。
✧测试脚本
测试脚本的语法。
3.14值映射
【功能描述】
这个步骤简单的映射字符串,从一个值映射到另一个值。
例如:
如果你想替换Languagecodes,你可以:
使用的字段名:
LanuguageCode
目标字段名:
LanguageDesc
源值/目标值:
EN/English,FR/French,NL/Dutch,ES/Spanish,DE/German,…。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
使用的字段名
待进行值映射转换的字段名。
源值
转换前的值。
目标值
转换后的值。
3.15列转行
【功能描述】
这个步骤允许你将按列存储的数据转换为按行存储。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
分隔字段
需要列转行的字段名。
分隔符
字段中的分隔符。
新字段名
转换后的字段名。
3.16去除重复记录
【功能描述】
这个步骤允许你去除关键字重复的记录。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
拒绝重复行
增加重复行数到输出。
错误描述
包含重复行号的字段的名称。
用来比较的字段
指定重复值字段。
3.17去除重复记录(哈希集合)
【功能描述】
参考3.16去除重复记录。
3.18增加常量
【功能描述】
这个步骤很简单,主要是添加常量到流中。
它的使用也很容易:
用字符串形式指定名称,类型和值。
利用选择的数据类型指定转换格式。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
名称
增加的字段名称。
类型
字段类型。
格式
字段格式(数据格式、日期格式)。
长度、精度
增加的字段的长度和精度。
3.19增加序列
【功能描述】
这个步骤在流中增加一个序列。
一个序列是在某个起始值和增量的基础上,经常改变的整数值。
你可以使用数据库的序列,也可以使用ETL工具决定的序列。
备注:
ETL序列在同一个转换中是唯一使用的。
每一次转换运行的时候,序列的值又会重新循环一次(从开始值开始)。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
值的名称
新序列值的名称,将被添加到流中。
使用数据库获取序列
如果想使用数据库的序列,使用些选项。
使用计数器来计算序列
如果想使用ETL工具生成的序列,使用此选项。
计数器名称(可选)
如果一个转换中多个步骤生成同样的值名称,这个选项允许你指定计数器的名称,避免按照先后顺序通过多个步骤。
3.20字段选择
【功能描述】
这个步骤常常用来:
选择字段、重命名字段、指定字段的长度或者精度。
下面是三个不同标签的功能:
1、选择和修改:
指定需要流到输出流中的字段的精确顺序和名称。
2、删除:
指定必须从输出流中删除的字段。
3、元数据:
修改元数据字段的名称、类型、长度和精度。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
字段名称
选择或者修改的字段名称。
改名
如果不想改名,就使用空白。
长度
输入数字指定长度(-1:
代表没有长度指定)。
精度
输入数字指定精度(-1:
代表没有精度指定)。
3.21字符串裁剪
【功能描述】
这个步骤允许你将数据流中的字符串进行裁剪,生成新的字符串。
【操作步骤或操作内容】
功能1:
指定选项
选项
描述
在流中
输入流中的原字段名。
输出流
裁剪后的输出字段名。
开始
开始裁剪位置(若从第一个字符开始,填0)。
结束
结束裁剪位置(第一个字符为1,依次类推)。
3.22封锁步骤
【功能描述】
这是一个非常简单的步骤。
它冻结所有的输出,直到从上一步骤来的最后一行数据到达,最后一行数据将发送到下一步。
你可以使用这个步骤触发常用插件、存储过程和JavaScript等等。
【操作步骤或操作内容】
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ELT 平台 操作手册 KETTLE