典型相关分析方法研究.docx
- 文档编号:4756162
- 上传时间:2022-12-08
- 格式:DOCX
- 页数:12
- 大小:53.54KB
典型相关分析方法研究.docx
《典型相关分析方法研究.docx》由会员分享,可在线阅读,更多相关《典型相关分析方法研究.docx(12页珍藏版)》请在冰豆网上搜索。
典型相关分析方法研究
典型相关分析方法研究
摘要:
典型相关分析是研究两组变量(或两个随机向量)之间的相关关系的一种统计方
法。
与仅研究二个变量间线性关系的简单相关分析相比,典型相关分析能揭示出两组变量之
间的内在联系,且两组变量的数目可以改变,这确定了它的重要性。
随着计算机技术的发展,典型相关分析在各个行业试验研究中应用日渐广泛。
本文主要介绍典型相关分析的基本原理
与步骤并举例说明其应用。
关键词:
典型相关分析;基本原理;步骤;应用
Abstract:
Canonicalcorrelationanalysisisthestudyoftwogroupsofvariables(ortworandomvectors)astatisticalmethodtherelationshipbetweenthe.Comparedwithonlythesimplecorrelationanalysisoflinearrelationshipbetweentwovariablesandcanonicalcorrelationanalysiscanrevealtheinternalrelationsbetweentwosetsofvariables,andthenumberoftwogroupsofvariablescanchange,thisdeterminestheimportanceofit.Withthedevelopmentofcomputertechnology,thecanonicalcorrelationanalysissystemhasbeenwidelyusedinvariousindustriesinexperimentalstudy.Thispapermainlyintroducesthebasicprincipleandprocedureofcanonicalcorrelationanalysisandexamplesofitsapplication.
KeywordsCanonicalcorrelationanalysis;basicprinciple;step;application
一、引言
典型相关分析(CanonicalCorrelationAnalysis简称CCA是处理两个随机矢量之间相关性的统计方法,在多元统计分析中占有非常重要的地位。
典型相关分析可有效反映两组统计数据之间的关系,有着重要的应用背景⑴o
在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。
例如,为了研究扩张性财政政策实施以后
对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。
二、典型相关分析的国内外研究现状
典型相关分析及其改进算法已成功的应用到计算机视觉、模式识别、电子通信、生物医学、文本和图像检索和社会统计学等众多学科或领域。
很多学者都在从事这方面的研究,并取得了良好的效果。
孙权森⑵等将典型相关分析应用到特
征融合中,利用典型相关分析达到了信息冗余的目的。
陈拓⑻等利用典型相关分
析方法来抑制主动声呐直达波干扰并取得了很好的效果。
王磊⑷将多集典型相关
分析用于雷达辐射源指纹识别,与其他的方法相比具有更好的识别性能。
张洁玉[5]结合广义典型相关分析,提出一种新的仿射不变特征提取方法,且在视点变换图形识别中得到很高的识别率。
Kim⑹将张量典型相关分析应用于判别特征选择和动作检测,并取得很好的效果。
Hwa门出]将多重集典型相关分析与主分量分析相结合,并将这种新方法应用到功能神经影像学中。
Rau[8]提出一种新型正规化CCA方法,并将其应用于NCL-60微小核糖核酸癌症数据,取得了更稳定和更正确的结果。
Wang[9]利用典型相关分析进行多元回归的收缩和选择。
随着研究的深入,典型相关分析及其改进算法的理论知识越来越完善,应用的领域和学科越来越广。
三、典型相关分析的基本思想
典型相关分析是研究两组变量间整体线性相关关系的多元统计方法,它借助
于主成分分析的思想,对于每一组变量分别寻找线性组合,使生成的新综合变量能代表原始变量大部分的信息,同时与另一组变量生成的新的综合变量的相关程度最大,这样的一组新的综合变量称为第一对典型相关变量,同样的方法可以找
到第二对、第三对…,使各对典型相关变量之间不相关,典型相关变量之间的简单相关系数称为典型相关系数[10]o
四、典型相关的数学描述考虑两组变量的向量
Z二(Xi,X2」ll,Xp,yi,y2」ll,yq)
其协方差阵为
11
21
一艺
一工
艺22是第二组变量的协方差矩阵;二12=二21是X和丫的协方差矩阵如果我们记两组变量的第一对线性组合为:
其中:
ai
(aii,a21,111,api)
b1=(bii,b2i,|||,bqi)
所以,典型相关分析就是求ai和bi,使pv达到最大。
五、典型相关系数和典型变量
1•求法
在约束条件:
Var(u)二a艺11a=1
Var(v)二bY22b二1
下,求a1和b1,使pv达到最大。
根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转
化为求
的极大值,其中
(a〔,b〔)=a〔二12b〔(a^_:
na^1)(b〔二22S-1)
(1)
22
Lagrange乘数[12]。
入和v是
b1
11a1
(2)
a1
22b1
ia
2b
将上面的3式分别左乘a1和b1'
a1艺12b1-入a1
b1艺21a1-vb1
-1-1
艺11艺122^a
M1
、2
1-1入a
2-122-1
111222
2-122-1
222111
》12
=10
入2a
入2b
M
第一对典型变量提取了原始变量
2b
X与Y之间相关的主要部分,如果这部分还
不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数[13]。
在剩余的相关中再求出第二对典型变量和他们的典型相关系数。
设第二对典
型变量为:
cov^,u2)=covaix,a>x)=a1^11a2=0
covVi,v?
)=cov^yby)二b124二0
求使
cov(u2,v2)=a2212b2
达到最大的a2和b2
2.典型变量的性质
(1)同一组变量的典型变量之间互不相关
k,I二1,2,,r;k=I
因为特征向量之间是正交的。
故X组的典型变量之间是相互独立的:
covuk,ulpcovakX,aIXpaj11a^0
Y组的典型变量之间是相互独立的:
cowk,vj=co\b(Y,bY)二QJb=o
(2)不同组变量的典型变量之间的相关性
不同组内一对典型变量之间的相关系数为:
cov(比Vj)covaix,bjy)
二aicov(x,y)bj二ai艺仁bj
丸i,i=j
=<
0,j
同对相关系数为入,不同对则为零。
3、原始变量与典型变量之间的相关系数原始变量相关系数矩阵
DR11
R121
R=I
1
-R21
R22」
X典、型变量系数矩阵
-
a11
a12
HI
■LB
a21
a22
HI
A=〔aia2
III
ar'pXr-
V
*
■
■
+
_ap1
ap2
HI
ar1
ar2
*
■
apr_
y典型变量系数矩阵
六、典型相关分析适用性检验和典型相关系数的显著性检验
典型相关分析是研究两组变量之间相关关系的一种统计方法,但是并非所有的截面数据都适合于典型相关分析。
典型相关分析是在原始数据满足一定条件和
假设的前提下进行的,这些条件包括原始变量要服从多元正态分布,样本容量至
少要大于原始变量个数,这些假设包括两组变量之间要具有相关性,每组原始变
量中能够综合出典型变量,即原始变量组内要有一定的相关性等[14]。
若这些条件和假设无法满足,就不能进行典型相关分析。
所以,应用典型相关分析时,首先要对其适用性进行检验分析。
1.原始变量组内相关性检验
进行典型相关分析时,既要求原始变量组内存在一定相关性,但是又不能存在高度的多重共线性。
为此,典型相关分析适用性的检验,首先是从原始变量组内相关性检验开始的。
具体包括:
(1)原始变量组内存在一定相关性的假设检验。
检验的方法可以借鉴主成分分析适用性的检验方法,运用巴特莱特球性检验来进行。
巴特莱特球性检验是从原始数据整个相关矩阵出发进行的检验,检验的
原假设是相关矩阵为单位矩阵,如果不能拒绝原假设,说明原始变量之间相互独立,不适合进行典型相关分析。
事实上,如果原始数据的相关矩阵是一个单位矩阵各个原始变量之间互不相关,这时进行典型相关分析,则得到和原始变量个数一样的典型变量,而且典型变量就是各原始变量自身,显然是不适合进行典型相关分析的。
(2)原始变量组内变量高度多重共线性的检验。
典型相关分析要求原始变量组内要存在一定的相关性,但同时又要求原始变量之间不能有高度的多重共线性,否则也将不能产生典型变量,导致不能进行典型相关分析。
检验原始变量组内是否存在高度的多重共线性,可以采用如下的检验方法:
可决系数和方差膨胀因子法[15]。
对于每组变量,分别以其中的每个变量为被解释变量(因变量),其他变量为解释变量做回归,用R2j表示任意xj为被解释变量,其他变量为解释变量做线性回归的可决系数,由于Rj度量了为与其他解释变量的线性相关程度,这种相关程度越强,说明变量间多重共线性越严重,反之,Xj与其他变量的线性相关程度越弱,说明变量间的多重共线性越弱。
病态指数法。
根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。
因而当行列式|X'XI〜0时,矩阵XX至少有一个特征根近似于零。
反之,可以
证明,当矩阵XX至少有一个特征根近似为零时,X必存在多重共线性。
多重共线性的程度常常用病态指数来衡量。
为特征根的病态指数,其中,这里的Km是X'X的最大特征根。
病态指数度量了矩阵XX的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。
一般认为,0 除上述外,还可以根据简单相关系数矩阵来判断原始变量内部是否存在严重 多种共线性。 一般而言,如果每两个解释变量的简单相关系数比较高,如大于019,则可认为存在着较严重的多重共线性。 2•原始变量组间线性相关性检验 典型相关分析中,原始变量总体Z中的两组变量X,Y如果不相关,即 COV(X,Y)=212=0,有 关两组变量典型相关的讨论以及典型相关系数的计算就毫无意义了。 原始变量组 间相关性检验,即是典型相关分析适用性的检验,同时又是对典型相关系数的整体检验。 所谓整体检验是同时检验所有的典型相关系数看是否有一个是显著的。 3.典型相关系数的显著性检验 计算典型相关系数是典型相关分析中最重要的环节,但是并不是所有求出的典型相关系数都是显著相关的,这就必须要对典型相关系数的显著性进行检验。 典型相关系数的本质上是两组原始变量中所提取的典型变量之间的相关,并不是 两组原始变量之间的相关,典型相关系数是有多个维度的。 所以典型相关系数检验采取的是维度递减检验,即从第一个典型相关系数的显著性检验开始,然后是第二、第三,,一直到所有的各典型相关系数的显著性检验。 这种维度递减检验实际是对部分总体典型相关系数为0的假设进行检验,仍然是一种多元检验。 检验的原假设是,H(r)0: Kr=0(r=2,3,,,m,m=min(p,q))备择假设H1: 至少一个典型相关系数。 维度递减检验具体有两种做法: 一是采用巴特莱特大样本的V2检验,一是采用近似的F检验[16]。 七、对典型变量代表性的检验分析 典型变量是由原始变量进行综合得到的,典型变量的代表性如何也关系着典型相关分析的效果好坏,因此还需要对典型变量代表性进行检验分析。 典型变量代表性的检验分析是通过典型变量与原始变量的相关程度以及一组典型变量代表另一组原始变量的能力来反映的。 即通过计算X、丫变量组由自己的典型变量 解释与由对方的典型变量解释的方差百分比与累计百分比 八、应用举例 在这里我们举例说明典型相关分析方法的应用,我们根据调查数据来分析家庭特征与家庭消费之间的关系。 为了了解家庭的特征与其消费模式之间的关系。 调查了70个家庭的下面两 组变量: 每年去餐馆就餐的频率 <2: 每年外出看电影频率 j: 户主的年龄 』y2: 家庭的年收入 y3: 户主受教育程度分析两组变量之间的关系 变量间的相关系数矩阵如下 X1 X2 yi y2 y3 X1 1.00 0.80 0.26 0.67 0.34 X2 0.80 1.00 0.33 0.59 0.34 yi 0.26 0.33 1.00 0.37 0.21 y2 0.67 0.59 0.37 1.00 0.35 y3 0.34 0.34 0.21 0.35 1.00 典型相关分析如下: 典型相关分析 典型相关系数 调整典型相关系数 近似方差 典型相关系数的平方 1 0.687948 0.687848 0.005268 0.473272 2 0.186865 0.186638 0.009651 0.034919 各组变量系数如下: X组典型变量的系数 U1 U2 X1(就餐) 0.7689 -1.4787 X2(电影) 0.2721 1.6443 丫组典型变量的系数 V1 V2 Y1(年龄) 0.0491 1.0003 Y2(收入) 0.8975 -0.5837 Y3(文化) 0.1900 0.2956 由表可以得出,两个反映消费的指标与第一对典型变量中u1的相关系数分 别为0.9866和0.8872,可以看出u1可以作为消费特性的指标,第一对典型变量中v1与丫2之间的相关系数为0.9822,可见典型变量v1主要代表了了家庭收入,u1和v1的相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的; 典型变量的结构(相关系数) U1 U2 X1 0.9866 -0.1632 X2 0.8722 0.4614 V1 V2 丫1 0.4211 0.8464 Y2 0.9822 -0.1101 Y3 0.5145 0.3013 典型变量的结构(相关系数) V1 V2 X1 0.6787 -0.0305 X2 0.6104 0.0862 U1 U2 Y1 0.2897 0.1582 Y2 0.6757 -0.0206 Y3 0.3539 0.0563 第二对典型变量中u2与x2的相关系数为0.4614,可以看出u2可以作为文化消费特性的指标,第二对典型变量中v2与丫1和Y3之间的分别相关系数为 0.8464和0.3013,可见典型变量v2主要代表了家庭成员的年龄特征和教育程度,u2和v2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的相关性。 九、典型相关分析方法注意事项 因为典型相关分析可以看做是多元线性回归分析的延伸,有很多注意事项,在使用时应当注意以下几点: (1)对调查者想做出推断的总体来说,样本必需具有代表性。 一个简单的随机样本就具有这种性质。 如果做不到这一点,调查者至少应确保所选择的样本点包含了总体中能够发生的各种情况。 如果人为地限制了样本的取值范围,会影响相关系数的估计结果。 (2)计量可靠性低的话,会导致X变量之间和丫变量之间的相关系数估计值偏低。 (3)应该通过绘制变量序对的直方图和散点图找出离群点。 (4)调查者应该核对的一点是,典型相关系数要足够大到值得考察这些系数的程度。 尤为重要的是,这个相关系数不是只因为一个因变量和一个自变量。 应该考察方差的比例,如果比例小的话,减少模型中变量的个数可能是合理的。 (5)如果样本量足够大,建议将样本分拆,对拆成两半的两个样本分别做典型相关分析,再把结果进行比较,看看结果是否类似。 (6)如果典型相关系数和典型变量载荷差异相当大(即如果它们符号不同),那 么,应该对两者都进行认真考察,以帮助解释结果。 与解释第一个典型相关变数相比,第二或第三个典型相关变数的解释更困难。 要求以后陆续得出的变量线性 组合与已获得的线性组合相独立,这个条件对结果所施加的限制可能难于理解。 (7)关于典型相关的假设检验,是以X变量和丫变量的联合分布是多元正态分布为前提的[17]。 如果要研究需要报告这种检验,就应该检查这个假设。 (8)因为典型相关既用到X变量集合,也用到丫变量集合,分析中包含的变量 总数可能会相当多。 这可能会使因缺失值而没用上很多样本点的问题变得严重起来。 此时,要么需认真选择变量,要么需要利用推算技术。 ,来反映典型变量与 原始变量的相关程度。 参考文献: [1]王正群,孙兴华,郭丽等•基于Fisher准则的多特征融合[J].计算机工程,2002,28(3): 41-42. [2]孙权森,曾生根,王平安等.典型相关分析的理论及其在特征融合中的应川[J].计算机学 报,2005,28(9): 1524.1533. [3]陈拓,蔡惠智.采用典型相关分析实现主动声纳直达波干扰抑制叨应用声学,2012,2(31): 130一134. [4]王磊,史亚,姬红兵.基于多集典型相关分析的雷达辐射源指纹识别[J],西安电子科技人学 学报,2013 (2): 164,171. [5]张洁玉,陈强,白小晶等•基于广义典型相关分析的仿射不变特征提取方法[J]•电子与 信息学报,2009,31(10): 2465—2469• [6]Tae—KyunKim,Kwan—YeeKennekennethWong.TensorCanonicalCorrelationAnalysisforActionClassification[J].ComputerVisionandPatternRecognition,2007,33: l-8. [7]HeungsunHwang,KwangheeJungBrJMamStatPsycho,2103,66 (2): 308-321 [8]RaulCruz—cano,Mei-Ling,TingLee.Fastregularizedcanonicalanalysis[J]. ComputationalStatistic&DataAnalysis.2014,70: 88-100 [9]BaiguoAn,GuoJianhua,HanshengWang.MultivariateRegressionShrinkageandSelectionbycanonicalcorrelationanalysis[J].SocialScienceResearchNetwork.2012. [10]张尧庭,方开泰.多元统计分析引论[M].北京: 科学出版社,1999. [11]陈家鼎,孙山泽,李东风.数理统计学讲义[M].北京: 高等教育出版社,2002. [12]邓祖新.数据分析方法和SAS系统[M].上海: 上海财经大学出版社,2006. [13]孙文爽,陈兰祥.多元统计分析.北京: 高等教育出版社,1994. [14]JinZ.,YangJ.Y.,TangZ.M.,HuZ.S..Atheoremontheuncorrelatedoptimaldiscriminantvectors.PatternRecogn-ition,2001,34(7): 2041-2047 [15]孙权森,曾生根,杨茂龙,等.基于典型相关分析的组合特征抽取及脸像鉴别[J].计算机研究 与发展,2005,42(4): 614-621 [16]陈才扣,刘永俊,杨静宇.二维最大散度差图像投影鉴别分析[J].系统仿真学报,2007,19(4): 833-835. [17]贺云辉,赵力,邹采荣.一种基于KCCA的小样本脸像鉴别方法[J].应用科学学报,2006, 24 (2): 104-144.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 典型 相关 分析 方法 研究