SPSS聚类分析详解PPT课件下载推荐.ppt
- 文档编号:15133297
- 上传时间:2022-10-28
- 格式:PPT
- 页数:80
- 大小:1.63MB
SPSS聚类分析详解PPT课件下载推荐.ppt
《SPSS聚类分析详解PPT课件下载推荐.ppt》由会员分享,可在线阅读,更多相关《SPSS聚类分析详解PPT课件下载推荐.ppt(80页珍藏版)》请在冰豆网上搜索。
2)、)、分层聚类的方法可以用于样本聚类(分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类)型,也可以用于变量聚类(R型)。
型)。
2、非系统聚类法、非系统聚类法-(快速聚类法(快速聚类法-K-均值聚类法)(均值聚类法)(K-meansCluster)3、两步聚类法、两步聚类法-一种探索性的聚类方法(一种探索性的聚类方法(TwoStepCluster)K-均值聚类分析均值聚类分析K-meansCluster又称为快速样本聚类法,是非系统聚类中最常用的聚类法。
又称为快速样本聚类法,是非系统聚类中最常用的聚类法。
优点:
是占内存少、计算量小、处理速度快,特别适合大样本的是占内存少、计算量小、处理速度快,特别适合大样本的聚类分析。
聚类分析。
缺点:
应用范围有限,要求用户制定分类数目应用范围有限,要求用户制定分类数目(要告知要告知),只能对,只能对观测量(样本)观测量(样本)聚类,而不能对变量聚类,且所使用的聚类变聚类,而不能对变量聚类,且所使用的聚类变量必须都是连续性变量量必须都是连续性变量。
基本原理基本原理具体做法具体做法1、按照指定的分类数目、按照指定的分类数目n,按某种方法选择某些观测量,设为,按某种方法选择某些观测量,设为Z1,Z2,Zn,作为初始聚心。
,作为初始聚心。
2、计算每个观测量到各个聚心的欧氏距离。
即、计算每个观测量到各个聚心的欧氏距离。
即按就近原则将每个观测量选入一个类中,然后计算各个类的中按就近原则将每个观测量选入一个类中,然后计算各个类的中心位置,即均值,作为新的聚心。
心位置,即均值,作为新的聚心。
3、使用计算出来的新聚心重新进行分类,分类完毕后继续计算、使用计算出来的新聚心重新进行分类,分类完毕后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间距离的最大改变量小于初始聚类心间最小距代计算的聚心之间距离的最大改变量小于初始聚类心间最小距离的倍数时,或者到达迭代次数的上限时,停止迭代。
离的倍数时,或者到达迭代次数的上限时,停止迭代。
数据标准化处理:
存储中间过程数据存储中间过程数据数据标准化处理,并存储。
指定5类收敛标准值存储最终结果输出情况,在数据文件中(存储最终结果输出情况,在数据文件中(QCL-1、QCL-2)初始聚心选项,输出方差分析表初始聚类中心表具体城市看后表最终聚类中心表最终聚类中心表聚类结果:
聚类结果:
QCL-1说明聚类结果,说明聚类结果,QCL-2说明聚类的长度情况说明聚类的长度情况系统聚类法系统聚类法HierarchicalCluster系统聚类法优点:
系统聚类法优点:
既可以对观测量(样品)也可对变量进行既可以对观测量(样品)也可对变量进行聚类,既可以连续变量也可以是分类变量,提聚类,既可以连续变量也可以是分类变量,提供的距离计算方法和结果显示方法也很丰富。
供的距离计算方法和结果显示方法也很丰富。
应用实例应用实例某电冰箱厂开发某一新产品,在投放市场前希望对以往经销某电冰箱厂开发某一新产品,在投放市场前希望对以往经销的国内的国内66个地区征集对新产品的评价,若对新产品的评价指个地区征集对新产品的评价,若对新产品的评价指标有三项:
式样、性能、颜色,评价的调整表采用标有三项:
式样、性能、颜色,评价的调整表采用1010分制,分制,调查结果的数据如下表调查结果的数据如下表123456性能9110928颜色827946式样728357地区(样品)指标用分类法对用分类法对66个样品进行分类,以估计哪些地区最有可能经销个样品进行分类,以估计哪些地区最有可能经销这类新产品?
这类新产品?
按公式计算两两样品间的相似系数,得相似矩阵按公式计算两两样品间的相似系数,得相似矩阵123456123456Q=按四条原则进行分类按四条原则进行分类作聚类分析图作聚类分析图X3X6X1X4X2X510.9940.9550.9940.933一、问题提出一、问题提出聚类分析聚类分析对一批样品或指标进行分类的一种统对一批样品或指标进行分类的一种统计方法。
计方法。
具体处理方法:
(思路)具体处理方法:
(思路)11、具体研究的分类对象:
样品或指标、具体研究的分类对象:
样品或指标22、方法:
把、方法:
把“性质相似性质相似”或或“相互关系密切相互关系密切”的样品的样品或指标聚在一起。
或指标聚在一起。
33、步骤:
、步骤:
11)首先给出度量)首先给出度量“相似相似”或或“关系密切关系密切”的的统计统计指标指标22)形成一个由小到大的分析系统。
)形成一个由小到大的分析系统。
33)把整个分类系统画成一张分类图)把整个分类系统画成一张分类图(33)相关系数)相关系数(44)关联系数)关联系数指标:
(指标:
(11)统计指标是相似系数。
)统计指标是相似系数。
根据相似性归为一类,否则为另一类。
(22)统计指标是样品(空间的点)之间的距离)统计指标是样品(空间的点)之间的距离将距离近的点归成一类,否则为另一类。
将距离近的点归成一类,否则为另一类。
二、聚类统计量二、聚类统计量首先定义一些分类统计指标首先定义一些分类统计指标刻画样或指标之刻画样或指标之间的相似程度(这些统计指标称为聚类统计量)间的相似程度(这些统计指标称为聚类统计量)在市场研究中,样品在市场研究中,样品用作分类的事物用作分类的事物指标指标用来作为分类依据的变量。
用来作为分类依据的变量。
(如:
年龄、收入、销售量)(如:
年龄、收入、销售量)
(一)相似系数(夹角余弦)一)相似系数(夹角余弦)一般式:
假定每个样品包含有一般式:
假定每个样品包含有PP项指标,若有几个样品项指标,若有几个样品的调查数据的调查数据每一个样品都可看成P维空间中的一个向量对于任意两个样品Xi和Xj的相似程度可用这两个向量之间的夹角余弦来表示:
Xi和Xj相重合时,夹角相似程度为Xi和Xj相互垂直时,相似程度为相似密切解析几何知识:
相似系数其中:
如果把上述如果把上述nn个样品的任何两个样品的相似系数个样品的任何两个样品的相似系数都计算出来并排列成一都计算出来并排列成一个矩阵:
个矩阵:
根据算出的根据算出的,就可对就可对nn个样品进行聚类个样品进行聚类用相似系数作为聚类统计量时的分类方法用相似系数作为聚类统计量时的分类方法11、分类原则:
、分类原则:
(11)若选出一对样品,在已分好的类中未出现,则形)若选出一对样品,在已分好的类中未出现,则形成一个独立新类。
成一个独立新类。
(22)若选出两个样品中,有一个是在已分好的类中出)若选出两个样品中,有一个是在已分好的类中出现过,则把另一个样品也加入到该类中去。
现过,则把另一个样品也加入到该类中去。
(33)若选出一对样品,都分别出现已经分好的两类中,)若选出一对样品,都分别出现已经分好的两类中,则把这两个类联结在一起。
则把这两个类联结在一起。
(44)若选出的一对样品都出现在同一组中,则这对样)若选出的一对样品都出现在同一组中,则这对样品就不用再分组了。
品就不用再分组了。
按上述四条原则反复进行,直到把所有样品都分类完毕,按上述四条原则反复进行,直到把所有样品都分类完毕,最后以分类图形式表示最后以分类图形式表示22、分类方法、分类方法例:
设有例:
设有77个样品,每个样品测得个样品,每个样品测得PP个指标,数据如表个指标,数据如表X1X2X3X4X5X6X7样品指标要求对此要求对此77个样品进行聚类,采用的聚类统计量是个样品进行聚类,采用的聚类统计量是相似系数(夹角余弦)相似系数(夹角余弦)首先计算所有的两个样品间的相似系数首先计算所有的两个样品间的相似系数12345671234567Q=按矩阵中的数值对按矩阵中的数值对77个样品(按四个原则)进行聚类个样品(按四个原则)进行聚类12345671234567Q=顺序连结样品相似系数123456X1X50.97X1X5X30.94X2X40.91X2X4X60.67X1X5X3X2X4X60.51X1X5X3X70.24X2X4X6按矩阵中的数值对按矩阵中的数值对77个样品(按四个原则)进行聚类个样品(按四个原则)进行聚类11、记下、记下QQ中最大值中最大值qq1515=0.97=0.97,划去划去QQ中的第中的第55行第行第55列列22、记下、记下QQ中剩余元素最大值中剩余元素最大值qq1313=0.94=0.94,划去划去QQ中的第中的第33行第行第33列列行(33)记下)记下QQ中剩余元素最大值中剩余元素最大值qq2424=0.91=0.91,划去划去QQ中的第中的第44行第行第44列列(44)记下)记下QQ中剩余元素最大值中剩余元素最大值qq2626=0.67=0.67,划去划去QQ中的第中的第66行第行第66列列(55)记下)记下QQ中剩余元素最大值中剩余元素最大值qq1212=0.51=0.51,划去划去QQ中的第中的第22行第行第22列列(66)记下)记下QQ中剩余元素最大值中剩余元素最大值qq1717=0.24=0.24作聚类图:
作聚类图:
X1X5X3X2X4X6X70.970.940.910.670.510.2422)利用相关作聚类分析利用相关作聚类分析例:
设有nn个个样品,每个样品测得样品,每个样品测得88个指标个指标X1X1,X2X2,X8X8。
要求对要求对88个指标进行聚类,聚类统计量个指标进行聚类,聚类统计量采用相关系数采用相关系数设相关矩阵设相关矩阵R=R=()为:
为:
1234567812345678顺序连结样品相似系数1234567X1X60.99X1X6X30.96X2X40.93X2X4X70.68X5X80.49X1X6X3X2X4X70.47X1X6X3X5X8-0.94X2X4X7R=按矩阵按矩阵R中数值对中数值对8个指标(按四个原则)进行聚类:
个指标(按四个原则)进行聚类:
1)记下矩阵中的最大值)记下矩阵中的最大值,划去第划去第6行第行第6列列2)记下矩阵中的最大值)记下矩阵中的最大值,划去第,划去第3行第行第3列列以此类推。
以此类推。
X1X6X3X4X2X7X5X80.990.960.930.680.490.47-0.94主要城市日照时数注:
连续变量注:
连续变量SPSS提供不同类间距提供不同类间距离的测量方法离的测量方法1、组间连接法、组间连接法2、组内连接法、组内连接法3、最近距离法、最近距离法4、最远距离法、最远距离法5、重心法、重心法6、中位数法、中位数法7、Ward最小偏差平最小偏差平方和法方和法观测量概述表聚类步骤,与图结合看!
4、5聚类聚类方法有系统聚类和逐步聚类,输入数据集可以是普方法有系统聚类和逐步聚类,输入数据集可以是普通数据集、相关矩阵(通数据集、相关矩阵(CORR过程产生)或协方差矩阵过程产生)或协方差矩阵(FACTOR等过程产生)。
等过程产生)。
SAS提供的聚类过程有:
提供的聚类过程有:
1、CLUSTER对对坐标数据或距离数据坐标数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 聚类分析 详解