书签分享收藏举报版权申诉 / 41

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 基础医学 > 几种多元统计方法及其在生活中的应用1.docx

几种多元统计方法及其在生活中的应用1.docx

文档编号：2365983
上传时间：2022-10-29
格式：DOCX
页数：41
大小：44.84KB

《几种多元统计方法及其在生活中的应用1.docx》由会员分享，可在线阅读，更多相关《几种多元统计方法及其在生活中的应用1.docx（41页珍藏版）》请在冰豆网上搜索。

几种多元统计方法及其在生活中的应用1.docx

几种多元统计方法及其在生活中的应用1

第2章聚类分析及其应用实例

2.1聚类分析简介

聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统

计分析方法，它们讨论的对象是大量的样品，要求能合理地按各自的特性來进行

合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行

的[']。

聚类分析方法有很多，按不同的分类方式，有不同的分类。

按聚类方法的不

同可分为以下几种：

（1）系统聚类法：

对所在的指标进行分类，每一次将最相似的两个数据合并

成一类，合并之后和其他数据的距离会重新计算，这个步骤会不断重复下去直至

所有指标合并成一类，并类的过程可用一张谱系聚类图描述.

（2）调优法（动态聚类法）：

所谓调优法，从表面意思就可以看出是在对n

个对象初步分类后，根据分类后的信息损失尽可能小的原则对分类进行择优调整，

直到分类合理为止.

（3）有序样品聚类法：

在很多实际问题中，所谓的样品都是相互独立的个体，

因此可以平等的划分。

但是有序样品聚类法的存在就是因为在另外一些实际问题

中，样品之间是存在着某种联系而在分类中是不允许打乱顺序的。

有序样品聚类

法开始时将所有样品归为一类，然后根据某种分类准则将其分为二类等等，一直

往下分类下去直至满足分类要求。

它的思想正好与系统聚类法的相反。

（4）模糊聚类法：

利用模糊聚集理论来处理分类问题，它对经济领域中具有

模糊特征的两态数据或多态数据具有明显的分类效果.

（5）图论聚类法：

在处理分类问题中独创性的引入了图论中最小支撑树的概

念。

（6）聚类预报法：

顾名思义，就是用聚类分析的方法来在各个领域中进行预

报。

在多元统计分析中，判别分析、回归分析等方法都可以用来做预报，但是在

一些异常数据面前，这些方法做的预报都不是很准确，方法也不好准确的实施，

而聚类预报则很好的解决了这一点。

可以预见，聚类预报法经过更深入的研究后，

一定会得到更加广泛的应用。

按聚类对象的不同，聚类分析可分为2型[对样品（CASES）聚类]与型[对

变量（VARIABLE）聚类]，两种聚类在方法和步骤上都基本相同.

2.2聚类分析方法介绍

数学方法在实际应用中是否受欢迎，最主要的一点就是它能不能适用于大型

6

第2章聚类分析及.11；应用实例

计算的问题。

图论聚类法、基于等价关系的聚类方法和谱系聚类法在大型问题中

难以快速有效处理数据而应用甚少。

基于目标函数的聚类方法因其设计简单，在

实际生活中被广泛运用，其主要思想是将问题转换为带约束条件的非线性优化，

这样就可以运用完备的线性最优化知识解决问题，而且这种方法也易于在计算机

上实现。

而伴随着计算机技术的突飞猛进，基于目标函数的聚类方法必定会成为

研究的热点。

2.2.1谱系聚类方法

在待分析样本数较小时，通常采用谱系聚类方法（系统聚类法）。

谱系聚类法

是按距离准则来对样本进行分类的，例如我们要将样本集X中的《个样本划分为C

类。

那么算法的实现过程如下：

首先令这^个样本各自为一个类，此时，总的类数

为《;其次，计算这/7个类别之间的相互距离，合并距离最小的两个样本，这样总

得分类数就只有个；然后计算新形成的个类别之间的距离，同样合并最

小的两个类，使类别减少为n-2个，依此原则，继续合并；最后，当总的类别只

剩下C类时，停止计算，分类结束，此时的C类就是聚类的结果。

需要注意的是，

在此过程中，计算类与类之间的距离的方法有很多种，具体选择什么方法，需要

视具体情况而定。

计算类间距离的方法，后续也会有比较详细的介绍。

根据上述聚类原则，我们很快可以知道，对于样本集里的任意两个样本X々和

Xj’它们总是可以聚类到一个类别中去。

“

上述所介绍的，只是谱系聚类算法中的一种，这种算法一般称为聚集法，它

比较适合于类别比较多的时候，当类别较少时，用此种方法就显得计算量非常的

大，使得分类效率不高；另一种谱系聚类算法叫做分裂法，它与聚集法初始时将

所有样本卑独分成一类刚好相反，它是将所有样本当成一类，然后在将某些样本

分离出去，形成其他的类别，这样就节省了相当一部分的计算量。

在实际运用中，

具体选择哪种方法来聚类就得以具体情况为准。

上述算法中的分类仅仅依靠样本间的距离或者类间距离，因而，距离的计算

决定了分类结果。

距离的计算种类有：

闽可夫斯基距离（包括街区距离、欧氏距

离和切比雪夫距离等），也可以选择马氏距离、角度相似性函数或者Taniraoto测

度。

其中马氏距离定义

DI=-m）'C~'-m）

（2—1）

这里X为模式向量，w为均值向量，C为模式总体的协方差矩阵.马氏距离的优点

k

是排除了模式样本之间的相关性影响.比如，我们取一个模式特征向量，可能有九

7

第2章聚类分析及用实例

如果B类是由E和F两类合并而成的，则有

2.最长距离法[9】

与上述相似，两个聚类A和B间的最长距离定义为

=max{i/Jaee5}

（2—5）

同样地，如果B类是由E和F两类合并而成的，贝max

3.中间距离法[9]

如果B类是由E和F两类合并而成的，则A类和B类之间的距离为

（2-6）

它介于最长距离和最短距离之间.

4.重心法

上述定义的类间距离没有考虑每一类中包含的样本数目，如果E类中有个

样本，F类中有个样本，则E和F两类合并后共有+?

.个样本.用”）

fP"'//工、代替中_距离、法中的系数，即得：

重心、法的类与类之间的距离递推公

/l?

A-+?

/■■；

式为

D,.?

（2-7）

Vn,+n,n,+n,（?

/:

.+?

）—

5.类平均距离法[9]

如果采用类间所有距离的平均距离，则有

Da,B=Yj^Ih

（2-8）

VoA,heB

不难得到类平均距离的递推公式为

D,、b=

（2-9）

V?

//+n「n,,.+n,,-

由于定义类间距离的方法不同，使分类结果不太一致.实际问题中常用几种不

同地方法进行计算，比较其分类结果，选择一个比较切合实际的分类.对于上述五

种定义类间距离的方法，可采用统一的递推公式：

~^E^AJi+^F^AJ'七PD丨“1:

+7\D^J；-

（2-10）

由此，我们可以得到五种类间距离递推公式中的权系数，如表1所示，其中

9

第2章聚类分析及ji；应用实例

n,^n,+n,,即B类样本数目是E和F类样本的合并。

表2-1统一类间距离递推公式中的权系数

Table2-1TheWeightCoefficientinTheRecurrenceFormulaofDistanceBetweenthe

UnifiedClass

方法

a、:

a,,.

P7空间性质

最短距离法0.50.50-0.5HI缩

最长距离法0.50.500.5扩张

类间平均距离法nJriB?

/./"/}00

保持

重心法《/;/?

?

-n,:

/1,,/nl0

保持

中间距离法0.50.5-0.250^

2.2.2基于等价关系的聚类方法

由离散数学中关于关系的描述我们知道，定义在集合Z=^[;c,，x,,上的关

系如果具有自反性、对称性和传递性则被称为等价关系.设义是一给定集合，

尤…，是它的子集，如果满足[9】：

X!

nXj二（j），V/,7=1,2,"?

<;，/半j

X^yjX^Kj^--KjX^=X

则集合尸=,,…，X」被称为集合的一个划分，而，被叫做这

个划分的块.若是集合上的等价关系，对于任意一个元素X,可以构造一

个X的子集，叫做X,对于的等价类，[x,],,=eX,Kx.RXj\.

对于这种集合，它具有下列性质：

（1）x,e[x丄；

（2）如果Xye[x,\，则必有[xy.=[x,L；

（3）若X广[x^L，但?

生V.L，则必有k]r。

L=.

由此可知，集合Z上的等价关系7?

所构成的类，两两互不相交，而且覆盖整

个集合JT.我们得到如下定理：

集合X上的等价关系R所构成的类产生集合X的

10

个分量是反映同一特征A，而只有一个分量反映另一特征B，欧氏距离计算出來的

结果将绝大部分反应特征A，而弱化了特征B，而马氏距离去除了相关性后，据规

避了这个缺点。

通过式（2.1）我们可以看出，当C为对角阵时，各特征分量相互

独立，同时，我们还发现，欧氏距离其实就是协方差矩阵C等于单位矩阵I时的

一个特例。

可以看出，在这种条件下模式样本集的概率分布不仅各分量之间不相

关，而且其密度函数的等高线为圆（或者超球面），即各分量方向上的密度分布是

均匀的

需要指出的是，计算协方差矩阵是计算马氏距离的关键所在，但是我们只有

在模式集给定的情况下，才能计算出协方差矩阵，遗憾的是这个条件很难实现。

角度相似性函数定义为

‘士^^（2-2）

是模式向量;C与X之间的夹角余弦，也就是X的单位向量II与X的单位向量

*‘

‘

/IW‘

II之间的点积.夹角余弦的测度反映了几何上相似形的特征，它对于坐标系的

/KII

旋转及缩放时不变的，但对位移和一般的线性变换则并不具有不变性的性质.

Tanimoto测度是将夹角余弦度量进行细小的修改后得到的，主要用于具有{0，

1}二值特性的情况[”。

其具体定义为

共有的特征数目，

xlx,

=；Cf或；Cj.中占有的特征数目之总数一

不过，相似性测度函数的共同点都涉及到把两个相比较的向量X和X的分量

k

j

值组合起来，但怎样组合并无普遍有效的方法，对于具体的模式分类，需视情况

作适当的选择[8]。

在谱系聚类算法中，每次迭代中形成的聚类之间以及它们与各个样本之间的

距离，有多种不同的准则函数[7]。

1.最短距离法[9]

假设A和B是两个聚类，则两类间的最短距离定义为

j|aeA,beb]

（2—4）

式中，（力表示A类中的样本X。

和B类中的样本之间的距离.表示A类中所

有样本与B类中所有样本之间的最小距离.

8

第2章聚类分析及其应用实例

￡（?

-^j）

?

=I广'n.

（2-14）

Jpr叫pr又J"

这里，七=—XX.i，■^J~~X^A.

Sk=\

S

4.指数相似系数

5

r".=—文e'si

（2-15）

Sk^\

这里，是第A个特征的方差，

=-^（?

‘k=\’2,…，S

（2-16）

“M

5.最大最小法

^min（x?

x^J

r,

（2-17）

Jmax（x?

x^J

/c=l

6.算术平均最小法

Emm（x?

x^J

r?

=^

（2—18）

Zk=\

7.算术平均最小法

Emin（x?

x^J

r,丨-

（2-19）

舍t（?

+?

）

L人--1

8.几何平均最小法

Emin（x,,,x^J

r,=^

（2-20）

ys^^

k=\

9.绝对值指数法

12

笫2苹聚类分析及K:

应用实例

一个划分，此划分叫做Z关于的商集，记做例如，同余关系i?

‘对整数集/

产生的商集就是模C的剩余类[9]:

///?

={[0],,.,[lL,..,[c-4.}

由上述讨论可知，在给定集合Z上定义一个等价关系，就决定集合;r的一种

划分.显然，这样的划分是硬分割，我们可以把这一概念推广到模糊关系上来[9]。

由于模糊等价关系及是论域与自己笛卡尔乘积jxl上的一个模糊集合，

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 多元统计方法及其在生活中应用

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：几种多元统计方法及其在生活中的应用1.docx
链接地址：https://www.bdocx.com/doc/2365983.html

几种多元统计方法及其在生活中的应用1.docx

热门标签