WEKA聚类算法wine数据集分析(附代码数据)研究报告.docx

资源ID：78381 资源大小：278.03KB 全文页数：18页
资源格式： DOCX 下载积分：15金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

WEKA聚类算法wine数据集分析(附代码数据)研究报告.docx

1、WEKA 聚类算法 wine 数据集分析研究1 实验目的希望通过实验研究葡萄酒的差异化，并分析造成这种差异化的原因，可以更深刻的掌握聚类分析的原理；进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能；达到能综合运用所学基本理论和专业知识；锻炼收集、整理、运用资料的能力的目的；希望能会调用 WEKA 软件聚类分析有关过程命令，并且可以对数据处理结果进行正确判断分析，作出综合评价。Wine 这份数据集包含来自 3 种不同起源的葡萄酒的共 178 条记录。13 个属性是葡萄酒的 13 种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。数据集特征:多变量记录数

2、:178领域:物理属性特征:整数，实数属性数目: 13捐赠日期1991-07-01相关应用:分类缺失值?无网站点击数: 3373192 实验数据该实验的数据集是 MostPopular Data Sets（hits since 2007）中的wine 数据集，这是是对在意大利同一地区生产的三种不同品种的酒，做大量分析所得出的数据。这些数据包括了三种酒中 13 种不同成分的数量。经过几天对数据集以及分类算法的研究，详细研究了朴素贝叶斯分类器和其他学习算法，包括决策树和神经网络等等。同时由于这个数据集有 13 个属性，用决策树实现起来会很复杂。我最终选择了用贝叶斯分类算法来实现。我将 178 个

3、样本分成 118 个训练样本和 60 个测试样本，采用朴素贝叶斯分类算法，计算出先验概率和后验概率，通过比较概率的最大值，判别出测试样本所属于的酒的类型，同时输出测试样本计算的正确率和错误率。这些数据包括了三种酒中 13 种不同成分的数量。13 种成分分别为：Alcohol， Malicacid，Ash ，Alcalinity of ash，Magnesium ，Total phenols，Flavanoids ， Nonflavanoid phenols，Proanthocyanins，Color intensity，Hue，OD280/OD315 of diluted wines，Pro

4、line。在 “wine.data”文件中，每行代表一种酒的样本，共有178 个样本；一共有 14 列，其中，第一列为类标志属性，共有三类，分别记为“1”，“2”，“3”；后面的 13 列为每个样本的对应属性的样本值。其中第 1类有 59 个样本，第 2 类有 71 个样本，第 3 类有 48 个样本。3 实验方法聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类是未知的，故此，这是一个“无指导的学习” 过程，它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较

5、有代表性的聚类算法，从算法思想。关键技术和优缺点等方面进行分析概括；另一方面选择一些典型的聚类算法和一些知名的数据集，主要从正确率和运行效率两个方面进行模拟实验，并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。实验中主要选择了K 均值聚类算法、FCM 模糊聚类算法并以 UCI MachineLearning Repository 网站下载的 WINE 数据集为基础，然后以WINE 数据集在学习了解 Weka 软件接口方面的基础后作聚类分析，使用最常见的 K 均值（即K

6、-means）聚类算法和 FCM 模糊聚类算法。下面简单描述一下 K 均值聚类的步骤。K 均值算法首先随机的指定 K 个类中心。然后：（1）将每个实例分配到距它最近的类中心，得到K 个类；（2）计分别计算各类中所有实例的均值，把它们作为各类新的类中心。重复（1）和（2），直到K 个类中心的位置都固定，类的分配也固定。在实验过程中通过利用 Weka 软件中提供的 simpleKmeans（也就是 K 均值聚类算法对 WINE 数据集进行聚类分析，更深刻的理解 k 均值算法，并通过对实验结果进行观察分析，找出实验中所存在的问题。然后再在学习了解Weka软件接口方面的基础上对 Weka 软件进行

7、一定的扩展以加入新的聚类算法来实现基于Weka 平台的聚类分析。3.1 K 均值聚类算法3.1.1 K 均值聚类算法理论K 均值算法是一种硬划分方法，简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。K 均值算法的划分理论基础是cmini 1xvkik Ai2（1）其中c 是划分的聚类数，Ai 是已经属于第i 类的数据集vi 是相应的点到第i 类的平均距离，即vi其中Ni 表示在数据集 Ai 中的对象数。3.1.2 算法的基本过程Nikixk 1 k , xA Ni（2）step1: 任意选择 K 个对象作为初始的类的中心；step2 : repeat ；step3: 根据类中的平均值

8、,将每个数据点 (重新)赋给最相近的类；step4: 更新类的平均值；step5: until 不再发生变化,即没有对象进行被重新分配时过程结束。3.2 FCM 模糊聚类算法FCM 算法也是一种基于划分的聚类算法，它的思想就是使得被划分到同一类的对象之间相似度最大，而不同类之间的相似度最小。模糊 C 均值算法是普通C 均值算法的改进，普通 C 均值算法对于数据的划分是硬性的，而 FCM 则是一种柔性的模糊划分。在介绍 FCM 具体算法之前我们先介绍一些模糊集合的基本知识。3.2.1 FCM 模糊聚类算法的理论1) 理论基础-模糊集基本知识首先说明隶属度函数的概念。隶属度函数是表示一个对象 x

9、隶属于集合 A 的A程度的函数，通常记做x ，其自变量范围是所有可能属于集合的对象（即A集合 A 所在空间中的所有点），取值范围是 0,1 ，即0x1。x1 表AA示 x 完全隶属于集合 A ，相当于传统集合概念上的 x A 。一个定义在空间X x 上的隶属度函数就定义了一个模糊集合 A ，或者叫定义在论域 X x 上的模糊子集。在聚类的问题中，可以把聚类生成的类看成模糊集合，因此每个样本点隶属于每个类的隶属度就是 0,1 区间里面的值。2) FCM 的算法理论1973 年，Bezdek 提出了该算法，并作为早期硬C 均值聚类（HCM）方法的一种改进，命名为模糊C 均值聚类简称 FCM 是一种

10、目标函数法。假设将样本空间 X 要分为k 个类，则类中心集C(c1 ,c2 ,c3 , ck ) 使下式的目标函数值最小min Jnk2m xc3mijij（）i 1 j 1kij1j 1, n;j1, 2, k且有（4）ij0,1其中i1, 2,U( ij )被称为模糊隶属度矩阵。ij 表示的是数据 xi 隶属于类中心cj 的隶属度。 m 是模糊加权参数，用于控制在模糊类间的程度依据参考的文献中一般取值为 15。应用拉格朗日乘法并基于上述约束可得到如下式1ij2cDij m1t 1Dtj且（5）1ic,1jNNxmijjCj 11ic（6）iNm ijj 1其中Dij 是 Xi 到第 j

11、类中心Cj 的欧氏距离，即 Xi3.2.2 FCM 模糊聚类算法的过程Cj 。step1: 置初始化参数值，包含模糊加权参数值 m 和聚类数k ，以及迭代的次数s 和算法终止误差。step2: 随机化置初始化聚类的中心C0 , t0 。step3: 计算隶属度矩阵U 可通过（5）式计算U s 得来。step4: 依据（6）式迭代计算聚类的中心Cs 1 。step5: 检验U s 1U s 3.2.3 实验配置是否成立，成立则算法结束否则goto step3 。实验配置过程与K 均值算法的实验配置过程基本相同，只是在 FCM 模糊聚类算法实验中要用到模糊隶属度参数，一般将其设置在 15 之间在

12、实验中设置如下 param.m=2。也可以根据需要对其进行修改。3.2.4 FCM 模糊聚类算法特点FCM 算法需要两个参数一个是聚类数目c ，另一个是参数m 。一般来讲c 要远远小于聚类样本的总个数，同时要保证 c1 。对于m ，它是一个控制算法的柔性的参数，如果m 过大，则聚类效果会很次，而如果 m 过小则算法会接近 K 均值聚类算法。算法的输出是c 个聚类中心点向量和c * N 的一个模糊划分矩阵，这个矩阵表示的是每个样本点属于每个类的隶属度。根据这个划分矩阵按照模糊集合中的最大隶属原则就能够确定每个样本点归为哪个类。聚类中心表示的是每个类的平均特征，可以认为是这个类的中心代表。FCM

13、算法是图像分割使用最多的方法之一，它的成功主要归功于为解决每个图像像素的隶属需要引入了模糊性。与 K 均值聚类相比较来说 FCM 能够保留初始图像的更多信息。FCM 对孤立点和其他人造图像非常敏感。3.3 基于 weka 的聚类分析3.4.1 数据的预处理从网站下载的WINE原始数据集wine.data 文件，而Weka软件需要的是ARFF文件格式的数据。因此需要将数据转换成Weka 支持的 ARFF 文件格式的。转换过程如下首先用记事本方式打开文件发现文件中的数据之间是以逗号来划分的，因此可以将数据文件的名称改为 wine.csv。然后，打开 Weka 选择 Tools 选项下的ArffV

14、iewer 如下图打开 ArffViewer 后选择 File 选项下的 Open 弹出如下图的打开窗口，在文件类型一栏选择CSV data files（*.csv）项。然后找到相应的文件后单击打开后如下图接下来选择 File 选项下的 Save as 后弹出如下图在文件名栏输入相应的文件名后单击保存即可得到相应的 arff 格式的数据集文件。K 均值算法只能处理数值型的属性，遇到分类型的属性时要把它变为若干个取值 0 和 1 的属性。WEKA 将自动实施这个分类型到数值型的变换，而且WEKA 会自动对数值型的数据作标准化。WEKA 中的 StringToWordVector过滤器能将 ARFF 文件中的文本数据转换为空间向量模型,它同时拥有分词、特征表示、特征提取等功能。在 Explorer 中的 Reprocess 界面导入 ARFF 文件,选择StringToWordVector过滤器,再设置相关参数。3.4.2 聚类过程进入Explorer 中的 Preprocess 界面单击 Open file 后弹出如下图的数据集选择窗口，选择WINE.arff 数据集文件后打开。然后可以在 Filter 下的 choose 中选择需要的过滤器参数。接下来选择 Cluster 选项界面，在Clusterer 中选择choose 来选择Weka 中

注意事项

本文（WEKA聚类算法wine数据集分析(附代码数据)研究报告.docx）为本站会员主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。