weka中文教程资料下载.pdf
- 文档编号:16120400
- 上传时间:2022-11-20
- 格式:PDF
- 页数:20
- 大小:574.68KB
weka中文教程资料下载.pdf
《weka中文教程资料下载.pdf》由会员分享,可在线阅读,更多相关《weka中文教程资料下载.pdf(20页珍藏版)》请在冰豆网上搜索。
Exit关闭WEKA。
2.Applications列出WEKA中主要的应用程序。
Explorer使用WEKA探索数据的环境。
(本文档的其它部分将详细介绍这个环境)?
Experimenter运行算法试验、管理算法方案之间的统计检验的环境。
KnowledgeFlow这个环境本质上和Explorer所支持的功能是一样的,但是它有一个可以拖放的界面。
它有一个优势,就是支持增量学习(incrementallearning)。
SimpleCLI提供了一个简单的命令行界面,从而可以在没有自带命令行的操作系统中直接执行WEKA命令。
3.Tools其他有用的应用程序。
ArffViewer一个MDI应用程序,使用电子表格的形式来查看ARFF文件。
SqlViewer一个SQL工作表,用来通过JDBC查询数据库。
EnsembleLibrary生成集成式选择(EnsembleSelection)5所需设置的界面。
4.VisualizationWEKA中数据可视化的方法。
Plot作出数据集的二维散点图。
ROC显示预先保存的ROC曲线。
TreeVisualizer显示一个有向图,例如一个决策树。
GraphVisualizer显示XML、BIF或DOT格式的图片,例如贝叶斯网络(Bayesiannetwork)。
BoundaryVisualizer允许在二维空间中对分类器的决策边界进行可视化。
5.Windows所有已打开的窗口都列在这里。
Minimize最小化所有当前的窗口。
Restore还原所有最小化过的窗口。
6.HelpWEKA的在线资源可以从这里找到。
Wekahomepage打开一个浏览器窗口,显示WEKA的主页。
Onlinedocumentation链接到WekaDoc维基文档4。
HOWTOs,codesnippets,etc.通用的WekaWiki3,包括大量的例子,以及开发和使用WEKA的基本知识(HOWTO)。
WekaonSourceforgeWEKA项目在S的主页。
SystemInfo列出一些关于Java/WEKA环境的信息,例如CLASSPATH。
About不光彩的“About”窗口。
如果从终端启动WEKA,会有一些文字在终端窗口中出现。
这些文字是可以忽略的,除非某些东西出错了这时它可以帮助找到错误的原因。
(LogWindow也可以显示那些信息。
)这份文档也可以从在线的WekaDocWiki4中找到,它将集中阐述如何使用Explorer,而不会逐个解释WEKA中的数据预处理工具和学习算法。
要获得关于各种筛选器(filter)和学习算法的更多信息,可参考DataMining2一书。
1WEKAExplorer1.1标签页在窗口的顶部,标题栏下是一排标签。
当Explorer首次启动时,只有第一个标签页是活动的;
其他均是灰色的。
这是因为在探索数据之前,必须先打开一个数据集(可能还要对它进行预处理)。
所有的标签页如下所示:
1.Preprocess.选择和修改要处理的数据。
2.Classify.训练和测试关于分类或回归的学习方案。
3.Cluster.从数据中学习聚类。
4.Associate.从数据中学习关联规则。
5.Selectattributes.选择数据中最相关的属性。
6.Visualize.查看数据的交互式二维图像。
这些标签被激活后,点击它们可以在不同的标签页面上进行切换,而每一个页面上可以执行对应的操作。
不管位于哪个页面,窗口的底部区域(包括状态栏、log按钮和Weka鸟)仍然可见。
1.2状态栏状态(Status)栏出现在窗口的最底部。
它显示一些信息让你知道正在做什么。
例如,如果Explorer正忙于装载一个文件,状态栏就会有通知。
提示在状态栏中的任意位置右击鼠标将会出现一个小菜单。
这个菜单给了你两个选项:
1.MemoryInformation.在log栏中显示WEKA可用的内存量。
2.Rungarbagecollector.强制运行Java垃圾回收器,搜索不再需要的内存空间并将之释放,从而可为新任务分配更多的内存。
注意即使不强制运行,垃圾回收也是一直作为后台任务在运行的。
1.3Log按钮点击这个按钮,会出现一个单独的窗口,包含一个可拖动的文本区域。
文本的每一行被加了一个时间戳,显示了它进入日志(log)的时间,一旦在WEKA中执行某种操作时,该日志就会记录发生了什么。
对于使用命令行或者SimpleCLI的人,日志也将完整地记录分类,聚类,特征提取等任务的设置字符,使得它们可被复制/粘贴到其它地方。
但关于数据集和class属性1的选项仍然要由用户给出(例如,分类器(classifier)的t,或者筛选器的i和-o)1.4WEKA状态图标状态栏的右边是WEKA状态图标。
当不运行任何进程时,WEKA鸟会坐下并打一个小盹。
符号旁的数字显示了正运行的并发进程的数量。
当系统空闲时,它是零,而当进程的数量增长时,它也会增长。
任意进程启动后,小鸟会站起来并到处活动。
如果它仍然是站着的,但是很长时间内不动,那么它生病了:
某个地方出错了!
在这种情况下,应该重新启动WEKAExplorer。
1在分类或回归任务中,class属性是默认的目标变量。
注意这与下文中的分类型属性不是一个概念译注。
2预处理2.1载入数据预处理页顶部的前4个按钮用来把数据载入WEKA:
1.Openfile.打开一个对话框,允许你浏览本地文件系统上的数据文件。
2.OpenURL.请求一个存有数据的URL地址。
3.OpenDB.从数据库中读取数据(注意,要使之可用,可能需要编辑weka/experiment/DatabaseUtils.props中的文件)4.Generate.从一些数据生成器(DataGenerators)中生成人造数据。
使用Openfile.按钮可以读取各种格式的文件:
WEKA的ARFF格式,CSV格式,C4.5格式,或者序列化的实例2格式。
ARFF文件通常扩展名是.arff,CSV文件扩展名是.csv,C4.5文件扩展名是.data和.names,序列化的实例对象扩展名为.bsi。
2.2当前关系载入数据后,预处理面板就会显示各种信息。
Currentrelation一栏(“currentrelation”指目前装载的数据,可理解为数据库术语中单独的关系表)有3个条目:
1.Relation.关系的名称,在它装载自的文件中给出。
使用筛选器(下文将详述)将修改关系的名称。
2只有本段文字中的“实例”是JAVA语言中实例的概念;
而后文中的“实例”都将指数据集中的记录译注。
2.Instances.数据中的实例(或称数据点/记录)的个数。
3.Attributes.数据中的属性(或称特征)的个数。
2.3处理属性在Currentrelation一栏下是Attributes(属性)栏。
有四个按钮,其下是当前关系中的属性列表。
该列表有3列:
1.No.一个数字,用来标识数据文件中指定的各属性的顺序。
2.选择框选择框.允许勾选关系中呈现的各属性。
3.Name.数据文件中声明的各属性的名称。
当点击属性列表中的不同行时,右边Selectedattribute一栏的内容随之改变。
这一栏给出了列表中当前高亮显示的属性的一些描述:
1.Name.属性的名称,和属性列表中给出的相同。
2.Type.属性的类型,最常见的是分类型(Nominal)和数值型(Numeric)。
3.Missing.数据中该属性缺失(或者未指定)的实例的数量(及百分比)。
4.Distinct.数据中该属性包含的不同值的数目。
5.Unique.唯一地拥有某值的实例的数目(及百分比),这些实例每个的取值都和别的不一样。
在这些统计量的下面是一个列表,根据属性的不同类型,它显示了关于这个属性中储存的值的更多信息。
如果属性是分类型的,列表将包含该属性的每个可能值以及取那个值的实例的数目。
如果属性是数值型的,列表将给出四个统计量来描述数据取值的分布最小值、最大值、平均值和标准差。
在这些统计量的下方,有一个彩色的直方图,根据直方图上方一栏所选择的class属性来着色。
(在点击时,该栏将显示一个可供选择的下拉列表。
)注意仅有分类型的class属性才会让直方图出现彩色。
最后,若点击VisualizeAll按钮,将在一个单独的窗口中显示数据集中所有属性的直方图。
回到属性列表,开始时所有的选择框都是没有被勾选的。
可通过逐个点击来勾选/取消。
以上的4个按钮也可用于改变选择:
1.All.所有选择框都被勾选。
2.None.所有选择框被取消(没有勾选)。
3.Invert.已勾选的选择框都被取消,反之亦然。
4.Pattern.让用户基于Perl5正则表达式来选择属性。
例如,用*_id选择所有名称以_id结束的属性。
选中了想要的属性后,可通过点击属性列表下的Remove按钮删除他们。
注意可通过点击位于Preprocess面板的右上角的Edit按钮旁的Undo按钮来取消操作。
2.4使用筛选器3在预处理阶段,可以定义筛选器来以各种方式对数据进行变换。
Filter一栏用于对各种筛选器进行必要的设置。
Filter一栏的左边是一个Choose按钮。
点击这个按钮就可选择WEKA中的某个筛选器。
选定一个筛选器后,它的名字和选项会显示在Choose按钮旁边的文本框中。
用鼠标左键点击这个框,将出现一个GenericObjectEditor(通用对象编辑器)对话框。
用鼠标右键(或Alt+Shift+左键)点击将出现一个菜单,你可从中选择,要么在GenericObjectEditor对话框中显示相关属性,要么将当前的设置字符复制到剪贴板。
3筛选器的英文原文是fi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- weka 中文 教程