应用统计学聚类分析.ppt
- 文档编号:2648538
- 上传时间:2022-11-05
- 格式:PPT
- 页数:37
- 大小:549KB
应用统计学聚类分析.ppt
《应用统计学聚类分析.ppt》由会员分享,可在线阅读,更多相关《应用统计学聚类分析.ppt(37页珍藏版)》请在冰豆网上搜索。
重庆交通大学管理学院*05十一月2022聚类分析聚类分析Clusteranalysisv聚类分析聚类分析是根据是根据“物以类聚物以类聚”的道理,对样品或指标进行的道理,对样品或指标进行分类的一种多元统计分析方法。
分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。
相似性比与其他类的对象的相似性更强。
v聚类分析的目的聚类分析的目的使使类内类内对象的同质性最大化和对象的同质性最大化和类间类间对象的异质性对象的异质性最大化。
最大化。
重庆交通大学管理学院*05十一月2022v聚类分析的基本思想基本思想:
是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。
把相似的样品或指标归为一类,把不相似的归为其他类。
直到把所有的样品(或指标)聚合完毕.v相似样本或指标的集合称为类类。
重庆交通大学管理学院*05十一月2022v例、谁经常光顾商店,谁买什么东西,买多少?
按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以.识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样)重庆交通大学管理学院*05十一月2022v为什么这样分类?
(分类的好处)为什么这样分类?
(分类的好处)因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。
挖掘有价值的客户,并制定相应的促销策略:
如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!
重庆交通大学管理学院*05十一月2022确定待研究的问题确定待研究的问题选择聚类用的距离或相似系数选择聚类用的距离或相似系数选择聚类方法选择聚类方法确定类别的个数确定类别的个数评估聚类分析的效果评估聚类分析的效果解释聚类分析的结果解释聚类分析的结果1.先确定待研究的问题和待分类的对象1.聚类时多采用距离统计量2.变量聚类时多采用相似系数统计量3.不同度量单位的影响1.所选的方法与所选的距离是有关的2.小样本与大样本3.两者的串联使用1.相关的理论或实践上的需要2.系统聚类法3.非系统聚类法透过比较各类别的中心,来识别各个类别的意义,从而给各个类别命名分类步骤分类步骤重庆交通大学管理学院*05十一月2022v样本或变量的样本或变量的相似性相似性程度的数量指标:
程度的数量指标:
(1)相似系数相似系数性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;
(2)距离距离它是将每一个样品看作p维空间的一个点,并用某种度量方法测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。
v样本分类(Q型聚类)常以距离距离刻画相似性v指标分类(R型聚类)常以相似系数相似系数刻画相似性二、相似性度量二、相似性度量(SimilarityMeasure)重庆交通大学管理学院*05十一月2022v1、Distance设有n个样本单位,每个样本测有p个指标(变量),原始资料阵为:
重庆交通大学管理学院*05十一月2022每个样本都可以看成p维空间中的一点,n个样本就是p维空间中的n个点。
第i个样本与第j个样本之间的距离记为聚类过程中,相距较近的点归为一类,相距较远的点归为不同的类。
重庆交通大学管理学院*05十一月2022v第i个和第j个样品之间的距离如下四个条件四个条件:
重庆交通大学管理学院*05十一月2022v明氏距离、欧氏距离以及绝对距离明氏距离、欧氏距离以及绝对距离主要有以下两个缺点:
距距离离的的值值与与各各指指标标的的量量纲纲有有关关。
各指标计量单位的选择有一定的人为性和随意性,任何一个变量计量单位的改变都会使此距离的数值改变,从而使该距离的数值依赖于各变量计量单位的选择。
距距离离的的定定义义没没有有考考虑虑各各个个变变量量之之间间的的相相关关性性和和重重要要性性。
他们把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。
重庆交通大学管理学院*05十一月2022v例例:
横轴代表重量(单位:
kg),纵轴代表长度(单位:
cm)。
有四个点A,B,C,D,见图。
重庆交通大学管理学院*05十一月2022重庆交通大学管理学院*05十一月2022v当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离、欧氏距离和绝对距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。
常用的标准化处理:
其中为第j个变量的样本均值;为第j个变量的样本方差。
重庆交通大学管理学院*05十一月2022v2、相似系数相似系数Similaritycoefficients相似系数(或其绝对值)越大,变量之间的相似性程度越高;反之,越低。
聚类时,比较相似的变量归为一类,不太相似的变量归为不同的类。
变量与的相似系数用表示,满足以下三个条件:
重庆交通大学管理学院*05十一月2022v
(1)相关系数设和是第和个样品的观测值,则二者之间的相似测度为:
v
(2)夹角余弦重庆交通大学管理学院*05十一月2022名义变量的相似性度量:
简单匹配系数(名义变量的相似性度量:
简单匹配系数(simplesimplematching)matching)不配合的变量个数(配合与不配合变量不配合的变量个数(配合与不配合变量个数和)个数和)例:
某高校举办一个培训班,从学员的资料中得到例:
某高校举办一个培训班,从学员的资料中得到66个个变量:
性别(),取值男和女;外语语种(),取值变量:
性别(),取值男和女;外语语种(),取值为英、日、俄;专业(),取值为统计、会计、金融;为英、日、俄;专业(),取值为统计、会计、金融;职业(),取值为教师和非教师;居住处(),取值职业(),取值为教师和非教师;居住处(),取值为校内和校外;学历(),取值本科和本科以下。
为校内和校外;学历(),取值本科和本科以下。
重庆交通大学管理学院*05十一月2022现有学员i和学员j:
i=(男,英,统计,非教师,校外,本科)j=(女,英,金融,教师,校外,本科以下)二者的距离:
重庆交通大学管理学院*05十一月2022三、聚类方法(三、聚类方法(ClusteringMethods)v聚类分析依据聚类对象可分为两种类型:
聚类分析依据聚类对象可分为两种类型:
对样本分类,称为对样本分类,称为QQ型聚类分析型聚类分析对变量分类,称为对变量分类,称为RR型聚类分析型聚类分析QQ型聚类是对样本进行聚类,它使具有相似性特征的型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。
样本聚集在一起,使差异性大的样本分离开来。
RR型聚类是对变量进行聚类,它使具有相似性的变量型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。
变量个数,达到变量降维的目的。
重庆交通大学管理学院*05十一月2022v聚类分析的方法:
聚类分析的方法:
系统聚类(层次聚类)系统聚类(层次聚类)非系统聚类(非层次聚类)非系统聚类(非层次聚类)v系统聚类法包括:
系统聚类法包括:
凝聚方式聚类凝聚方式聚类、分解方、分解方式聚类式聚类v非系统聚类法包括:
非系统聚类法包括:
KK均值法均值法(快速聚类(快速聚类法)等法)等重庆交通大学管理学院*05十一月2022系统聚类过程重庆交通大学管理学院*05十一月2022四、系统聚类四、系统聚类(又称又称层次聚类层次聚类)HierarchicalClustering
(一)类与类之间距离测量方法:
(一)类与类之间距离测量方法:
vCentroidmethod(重心法)vSingle-linkagemethod(nearest-neighbor)(最近距离法)groupstheobjectsaccordingtothedistancebetweentheirnearestmembersvCompletelinkagemethod(farthest-neighbor)(最远距离法)groupstheobjectsaccordingtothedistancebetweentheirfarthestmembersvAveragelinkagemethod(平均距离法:
组间、组内)usestheaveragedistancebetweenpairsofmembersintherespectivesetsvWardsmethod(离差平方和法)重庆交通大学管理学院*05十一月2022
(1)重心法(Centroidmethod):
均值点的距离重庆交通大学管理学院*05十一月2022v用两类的重心间的距离作为两类的距离用两类的重心间的距离作为两类的距离GrGt重庆交通大学管理学院*05十一月2022
(2)、最短距离(NearestNeighbororSingleLinkage)x21x12x22x11类类GGpp与类与类GGqq之间的距离之间的距离DDpqpq(d(xd(xii,x,xjj)表示点表示点xxiiGGpp和和xxjjGGqq之间的距离之间的距离)重庆交通大学管理学院*05十一月2022(3)最长距离(FurthestNeighborFurthestNeighbororCompleteLinkage)x11x21重庆交通大学管理学院*05十一月2022(4)组间平均连接(组间平均连接(Between-groupLinkage)Between-groupLinkage)v为所有样本对间的平均距离。
为所有样本对间的平均距离。
v利用了所有样本对距离的信息利用了所有样本对距离的信息重庆交通大学管理学院*05十一月2022(5)组内平均连接(Within-groupLinkage)v对所有样本对的距离求平均值,包括小类之间的样本对、对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对小类内的样本对.重庆交通大学管理学院*05十一月2022先将n个样本各成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和S增加最小的两类合并,直至所有样本归为一类为止。
(6)离差平方和法连接(Wardsmethod)重庆交通大学管理学院*05十一月2022
(二)系统聚类法的二)系统聚类法的SPSSSPSS处理处理v系统聚类法是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法。
事先不用确定分多少类事先不用确定分多少类vSPSS系统聚类法:
凝聚式系统聚类法:
凝聚式11、所有的研究对象各自算作一类,将最所有的研究对象各自算作一类,将最“靠近靠近”的首先聚类的首先聚类22、再将这个类和其它类中最再将这个类和其它类中最“靠近靠近”的结合,直至所有的的结合,直至所有的对象都合并为一类为止对象都合并为一类为止vSPSS处理:
处理:
AnalyzeAnalyzeClassifyClassifyHierarchicalClusterHierarchicalCluster重庆交通大学管理学院*05十一月2022例:
例:
1616种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量重庆交通大学管理学院*05十一月2022SPSSSP
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计学 聚类分析