模糊聚类分析实验报告.docx
- 文档编号:30862115
- 上传时间:2024-05-10
- 格式:DOCX
- 页数:13
- 大小:1.14MB
模糊聚类分析实验报告.docx
《模糊聚类分析实验报告.docx》由会员分享,可在线阅读,更多相关《模糊聚类分析实验报告.docx(13页珍藏版)》请在冰豆网上搜索。
模糊聚类分析实验报告
1.实验目的和内容
1.1实验目的
模糊聚类分析一般是指根据研究对象本身的属性来构造模糊矩阵,并在此基础上根据一定的隶属度来确定聚类关系,即用模糊数学的方法把样本之间的模糊关系定量的确定,从而客观且准确地进行聚类。
聚类就是将数据集分成多个类或簇,使得各个类之间的数据差别应尽可能大,类内之间的数据差别应尽可能小,即为"最小化类间相似性,最大化类内相似性"原则。
1.2实验内容
调查了10个地区市民食品支出与收入和食品价格数据。
根据给出的数据(模糊聚类分析数据.txt),利用给出的程序对这些地区进行模糊聚类,并与SPSS中的层次聚类结果进行对比。
思考:
怎么确定哪个分类结果是可用的?
对于模糊聚类:
分析对比两种相似距离得到的分类结果。
分析对比数据标准化变换对分类结果的影响。
手工绘制聚类图。
2.程序实现过程
2.1整体流程
2.2主要代码
①打开文件
②通过下图中的平移-标准差变换公式将数据标准化。
③通过欧式距离计算模糊相似矩阵
④通过夹角余弦距离计算模糊相似矩阵
⑤通过分类阈值产生分类
2.3程序运行结果
①欧式距离
数据标准化后的结果
②夹角余弦距离
数据标准化后的结果
③对食品数据进行模糊聚类分析(先进行标准化,选然后择欧式距离计算,设立不同阈值),判断分类结果是否可用或分类结果是否正确可以使用单因素ANOVA检验方法,计算各个类别在所有变量上的差异,如果差异显著即认为分类结果可靠。
分类结果如下:
⑴阈值:
0.63
第一类:
1、2、9第二类:
3、4、5、6、7、8、10
⑵阈值:
0.76
第一类:
1、2第二类:
3、4、5、7、8第三类6、10第四类:
9
⑶阈值:
0.81
第一类:
1、2第二类:
3第三类:
4、5、7、8第四类:
6、10第五类:
9
利用SPSS进行分类结果的检验:
将三种分类结果依次作为class1、class2、class3标签添加在数据后
选择【分析-比较平均值-单因素ANOVA检验】,得到的ANOVA检验表
class1:
class2:
class3:
结果分析:
对比以上三种不同分类结果的ANOVA检验结果,可以发现class3的分类结果的显著性水平最好,即选用阈值为0.81。
3、层次聚类
3.1数据处理
实验数据
地区
食品支出
收入
食品价格
1
1016
2359
1.04
2
928
2087
1.01
3
650
1959
.83
4
576
1691
.65
5
540
1532
.74
6
829
1987
.70
7
638
1641
.73
8
621
1611
.77
9
1234
2925
.98
10
852
2101
.72
聚类分析是以各种距离来度量个体间的“亲疏程度”的,从距离公式的定义来看,数量级会对距离产生比较大的影响,从而影响最终的聚类结果。
为了解决这种问题,在聚类分析时应该消除这种影响,所以应该对数据进行标准化(之后操作对数据的处理均进行数据的标准化)。
3.2结果分析
3.2.1个案处理摘要
3.2.2聚类表
集中计划表是聚类结果表,列出了聚类过程中,个案或类合并的顺序。
本实验中共有10个个例,经过9个步骤,所有的个案被合并为一类。
①第一列:
阶段,表示聚类过程一共有九步。
②第二列:
组合聚类,表示聚类1和聚类2合并为一个新的类别。
③第三列:
系数,表示距离测度系数。
④第四列:
首次出现聚类的阶段,该列聚类1和聚类2取值为0表示其为个案,不为0表示其为类群。
如果取值均为0,表示此阶段合并的是两个个案,均不为0,表示合并的是两个类别,一个为0,一个不为0表示个案与类群合并。
⑤第五列:
下一个阶段,表示此阶合并后的类在下一次聚类出现在哪一阶。
例如:
第一行为3,表示个案7和个案8合并后的类将出现在第3阶。
在第3阶中,可以看到聚类1是4,聚类2是7,而首次出现的阶段聚类2为1,表示参与的是一个类而不是个案,该类来源于第1阶段聚类结果。
由此,可以分析出所有聚类过程。
3.2.3冰柱图显示聚类过程与类群的归属问题。
横轴表示个案,纵轴表示集群数标识出划分类群的个数。
3.2.4树状图(谱系图):
横轴表示重新标定的类间的距离,相当于冰柱图的集群数。
纵坐标为合并的个案序号。
3.2.5聚类碎石图
观察碎石图可知,随着聚类的不断凝聚,聚类数目不断减少,类间距在逐渐增大,在形成3类前,间距增加的幅度较小,但是到3之后类间距迅速增大。
根据类间距小形成类的相似性大,类间距大形成类的相似性小的原则,可以作为确定分类数的参考。
由上图可以考虑分为三类。
3.3模糊聚类与系统聚类对比
模糊聚类在初始时所有的样本单独为类,通过计算样本间的相似系数,根据确定的相似系数阈值判断,依据判断结果将相同情况的归为同一类。
模糊聚类属于先验聚类,精确度较高。
层次聚类在初始时将所有样本归为一类,通过计算样本到类间距离,根据确定阈值进行判断,满足阈值的样本归并到对应的类。
层次聚类属于自发聚类,精确度欠缺,但聚类速度快。
4、思考题
4.1、数据标准化变换对分类结果的影响
在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。
当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。
因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理,可以使得每个指标数值限制与[0,1]之间,具有共同的数值特性范围,从而提高分类的准确度。
4.2、欧式距离夹角余弦距离方法比较
从计算公式来看,欧式距离是相当于算两点间的距离,夹角余弦距离是相当于算两个向量之间的距离。
①欧式距离与坐标位置直接相关,夹角余弦计算空间向量的夹角,体现方向的差异。
②欧式距离体现数值特征的绝对差异,余弦距离从方向上区分差异,对绝对数值不敏感。
5、手绘聚类图
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模糊 聚类分析 实验 报告