利用Excel进行主成分分析的具体操作Word文件下载.docx
- 文档编号:21346259
- 上传时间:2023-01-29
- 格式:DOCX
- 页数:23
- 大小:83.75KB
利用Excel进行主成分分析的具体操作Word文件下载.docx
《利用Excel进行主成分分析的具体操作Word文件下载.docx》由会员分享,可在线阅读,更多相关《利用Excel进行主成分分析的具体操作Word文件下载.docx(23页珍藏版)》请在冰豆网上搜索。
19
0.898877
20
1.315024
21
0.707165
22
0.933820
23
L387131
24
25
L613787
1.731171
26
2.067097
1.939244
27
均值
10.88
10.68
0.0000000.000000
28
19,46560
23.09760
1111
29
标准差
4.41198
4.80600
1]
图1原始数据和标准化数据及其均值、方差(取自张超、杨秉庚《计量地理学基础》)
计算的详细过程如下:
⑴将原始数据绘成散点图(图2)o主持分分析原则上要求数据具有线性相矢趋势
—如果数据之间不相尖(即正交),则没有必要进行主成分分析,因为主成分分析的目的就是用正交的变量代替原来非正交的变量;
如果原始数据之间为非线性矢系,则有必要对数据进行线性转换,否则效果不佳。
从图2可见,原始数据具有线性相矢趋势,且测定系
数RJ0.4979,相应地,相矢系数FU0.7056。
⑵对数据进行标准化。
标准化的数学公式为
Xj
Xj-Xj
这里假定按列标准化,式中
J、・XjXj
ni二
分别为第j列数据的均值和标准差,量)的数据,
(xj-xj)
i4
X.Var(xj)
Xj为第i行(即第i个样本)、第j列(即第j个变Xjj为相应于Xjj
度宽
|凸北厶来&
土旦Mt世Zr上r|々|」_cino1"
7/i
图2原始数据的散点图
标准化数拯的散点图y=0.7056X+2E-16
K度
图3标准化数据的散点图
的标准化数据,n二25为样本数目。
对数据标准化的具体步骤如下:
①
求出各列数据的均值,命令为average,法为:
average(起始单元格:
终止单元格)。
如图1所示,在单元格B27中输入
“^AVERAGE(B1:
B26)”,确定或回车,即得第一列数据的均值%=10.88;
然后抓住单
元格B27的右下角(光标的十字变细)右拖至C27,便可自动生成第二列数据的均值x2=10.68。
2求各列数据的方差。
命令为varp,语法同均值。
如图1所示,在单元格B28中输入
“=VARP(B2:
B26)”,确定或回车,可得第一列数据的方差V缶(xJ二19.4656,右拖至
C28生成第二列数据的方差Var(x2)=23.0976。
3求各列数据的标准差。
将方差开方便得标准差。
也可利用命令stdevp直接生成标准
差,语法和操作方法同均值、方差,不赘述。
4标准化计算。
如图1所示,在单元格D2中输入“二(B2-$B$27)/$B$29”,回车可得
第一列第一个数据“3”的标准化数值-1.786045,然后按住单元格D2的右下角下拖至
D26,便会生成第一列数据的全部标准化数值;
按照单元格D2的右下角右拖至E2,就能
生成第二列第一个数据“2”的标准化数据-1.806077,抓住单元格E2的右下角下拖至
E26便会生成第二列数据的全部标准化数值。
5作标准化数据的散点图(图3)。
可以看出,点列的总体趋势没有变换,两种数据
的相矢系数与标准化以前完全相同。
但回归模型的截距近似为0,即有a》0,斜率等于
相矢系数,即有b=R。
⑶求标准化数据的相尖系数矩阵或协方差矩阵。
求相尖系数矩阵的方法是:
沿着“工具
(T)”一“数据分析(D)”的路径打开“分析工具(A)”选项框(图4),确定,弹出“相尖系数”对话框(图5),在“输入区域”的空白栏中输入标准化数据范围,并以单元格G1为输出区域,具体操作方法类似于回归分析。
确定,即会在输出区域给出相矢
图4分析工具选项框
图5相矢系数对话框
系数矩阵的下三角即对角线部分,由于系对称矩阵,上三角的数值与下三角相等,故未给出(图6),可以通过“拷贝一一转置一一粘帖”的方式补充空白部分。
G
H
IJ
K
L
相矢系数
协方差
列1
列?
列2
0.705603
7列2
图6标准化数据的相尖系数和协方差
求协方差的方法是在“分析工具”选项框中选择“协方差”(图7),弹出“协方
差”选项框(图8),具体设置与“相尖系数”类似,不赘述。
结果见图6,可以看出,对于标准化数据而言,协方差矩阵与相尖系数矩阵完全一样。
因此,二者任取其一即可。
图7在分析工具选项框中选择“协方差”
图8协方差选项框
0.7056〕
1—
⑷计算特征根。
我们已经得到相尖系数矩阵为
-1
C=I
[0.7056
而二阶单位矩阵为
〔01
式首眸立标堆腳矩捞们有
1010.7056
01■0.7056]
按照行列式化为代数式的规则可得
(■-1)2-0.70562
加]
-0.7056
丸T
2-20.5021=0
根据一元二次方程的求根公式,当U・4ac_0时,我们有、-b±
Ib2-4ac
扎二
这便是
2a
R,“2=1—R)
据此解得「二1.7056,*2=0.2944(对于本例,显然
相笑免数無阵的两个特征粮。
⑸求标准正交向量。
将・M弋入矩阵方程(■I—C)吋・0,得至u-
0.70560.70560.7056世02
在系数矩阵I・c中,用第一行加第二行0,•仙
0.7056-0.7056W_0
I00:
2r_0
由此得='
一2,令r=1»
则有二=1,于是得基础解系
单位化为。
畀.7°
711||11(0.7071屮.
单位化的公式为e「--1——
\町十屮22
(i=1,2)。
完全类似,将鼻代入矩阵方程ci-CF-0,得到
-0.7056J_0
-0.7056时2.HP
-O.7056I二°
0_2_0
0.7056J
0.7056
用系数矩阵的第二行减去第一行,化为
1-0.7056
10
于是得到=--'
■■■2,取」》,则有’J
=-1,因此得基础解系为
_0.7071,单位化为e〉—0.7071
这里。
、比便是标准正交向量。
P,即有
0.7071e>]二0.7071
0.7071
-0.7071
耦赢傭静胡希’即矩阵的转置等
1.70560
0.70710.707110.70560.70710.7071
D二
00.2934
mmult、语法是
1(0.7071-0.7071[0.705610.7071-0.7071
下面说明一下利用Excel进行矩阵乘法运算的方法。
矩阵乘法的命令为
mmult(矩阵1的单元格范围,矩阵2的单元格范围)。
例如,用矩阵P与矩阵C相乘,首先选择一个输岀区域如G1:
H2,然后输入“=mmult(A1:
B2,C1:
D2)”,然后按下
“Ctrl+Shift+Enter”键(图9),即可给出
1.2060441.206044
0.20817-0.20817再用乘得的结果与P阵相乘,便得对角矩阵
1.7056030
00.294397
如果希望一步到位也不难,选定输岀区域如C3:
D4,然后输入
M=mmult(mmult(A1:
B2,C1:
D2),E1:
F2)”(图10),同时按下“Ctrl+Shift+Enter”键,立即得到结果(图11)。
显然,对角矩阵对角线的数值恰是相矢系数矩阵的特征值。
sumT]X==ninuH(Al:
B25CI:
D2)
ABCDEF
G1H
0.7071070-707107:
1,0000000.705603;
0.7071070,707107
0.707107-0.707107:
0.7056031.00000010.707107-0.707107
=mmult(Al;
B2hCl:
图9矩阵乘法示例
SW
W
MMULT1
Arrayl01:
B2,ClD2iVj={1.2060437869442(
Array2|El:
F2={0.7071067811865<
=[1.70560348031238,0;
返回两数組矩阵的乘积,苴中Arrayl的行数与Array2的列数相等.
=miDult(mmultJAl:
B2jCl:
D2KEl:
F2)_
F
6707107
CL707107
L000000
CL705603;
6707107
0.707107;
-
-0.707107
CL705603
1.000000;
0.707107
Arr^yl用于乘积计算的两个数姐矩阵,第一个数组的列数应该与第二个数组的行数相熹
面计算结果二1•T0S60348确定|取消|
图10矩阵连乘的命令与语法
至此,标准化的原始变量X与主成分之间Z之间可以表作
XX?
0.7056
O7056禾tkz
X/1
11.7056
Z2J
20
0pj
0.2944I
显然乙勺与乙之间正交。
S
affi
s・c▼鴨艺為紘落JOI(3A
宋体
C3▼
={=OULT(MULT(AI:
B2,CI:
D2WEI:
F2)}
B
1c
0.707107
0.707107
1.000000
0,707107
1.000000
-0.707107
1-705603
0.294397
图11乘法结果:
对角矩阵
⑺根据特征根计算累计方差贡献率。
现已求得第一特征根为「=.7056,第二特征根为
、2=0.2944,二者之和刚好就是矩阵的维数,即有一2二m==2,这里为变量数
目(注意前面的n=25为样本数目)。
比较图6或图10中给出的相矢系数矩阵C与图11中给出的对角矩阵D可以看出,Tr.(C)=1+1=2,Tr.(D)=1.7056+0.2944=2,即有Tr.(C)=
Tr.(D),可见将相矢系数亦即协方差矩阵转换为对角矩阵以后‘矩阵的迹(trace,即对角线元素之和)没有改变,这意味着将原始变量化为主成分以后,系统的信息量没有减少。
能反映原始变量的多少信
Excel容易算出,第一特征根
累计百分比
现在问题是,如果我们只取一个主成分代表原来的两个变量,息?
这个问题可以借助相矢系数矩阵的特征根来判断。
利用占特征根总和即矩阵维数的85.28%(见下表),即有
特征根累计值百分比
1.7056031.705603
0.2943972
85.28%
14.72%
100.00%
也就是说:
1:
1.7056,Mm=1.7056/2=85.28%
■2:
0.2944,.2/m=0.2944/m=14.72%■r,2:
2,(r*2)/111=2/2=100%
这表明,如果仅取第一个主成分,可以反映原来数据85.28%的信息一一换言之,舍弃第
二个主成分,原来数据的信息仅仅损失14.72%,但分析变量的自由度却减少一个,整个
分析将会显得更加简明。
⑻计算主成分载荷。
根据公式,容易算岀
?
-1.7056。
・7071_C0235
[0.70711(0.9235
0.7071-0.3837
2二°
N944[_o707]」一[_o3837_
⑼计算公因子方差和方差贡献。
根据上述计算结果可以比较公因子方差和方差贡献。
再考虑全部的两个
主成分的时候,对应于
1和・2的公因子方差分别为
7、”/-0.923520.3837^1
V2;
k口丁二0.92352(—0.383刀2=1
对应于第一主成分Zi和第二主成分乙的方差贡献分别为
Cy亦-0.9235?
0.9235-1.7056
CV2/k5-0.38372(-0.3837)^0.2944
可以看出(图12):
第一,方差贡献等于对应主成分的特征根,即有
CVj=“扎j
第二,公因子方差相等或彼此接近,即有
yw
第一,公因子方差之和等于方差贡献之和,即有
'
二CVj=m=2
••
第一个规律是我们决定提取主成分数目的判据与之一,第二个规律是我们判断提取主成分数目是否合适的判据之一,第三个规律是我们判断提取主成分后是否损失信息的判据之一。
去掉次要的主成分以后,上述规律理当仍然满足。
这时如果第二个规律不满足,就意味着主成分的提取是不合适的。
此外,上述
规律也是我们检验计算结果是否正确的判据之
记入全部(两个)主成分
只考虑第一主成分
第一主成分笫一主成分公因子方差
第一主成分公因子方羞
长度孟1
0.92347265
0.38366425
长度心
0.852802
宽度E2
-0.3836643
宽度卞2
0.852802
方差贡献
1-705603
0.294397_1
1-7056031
1.705603
特征根入
1.705603
0.294397
特征根L
图12公因子方差、方差贡献的计算结果及其与特征根的贡献
的计算主成分得分。
根据主成分与原始变量的矢系,应有
Z=ptx或者
X=PZ
对于本例而言,式中XJUZJ珂Pt。
2】才1呵异7071070711头一>
212]e21%—[0.7071
—0.7071一这里只二②心异,氐=b21e22『为前面计算的标准化特征向量。
于是有
門J。
70710.7071护11
%—[0.7071-0.7071役_
化为代数形式便是
乙二0.7071X10.7071x222=0.70770.7071x2
式中的X均为标准化数据。
对Z二PTX进行转置,可得
ZT-XTP
二"
ULT(B2:
C26,E2:
F3)
1E1
F|
SUM
A|
R
C|
|D
样本编号百标准化斷牝标准化讨
r
特征向量勺特征向量
引得分
写得分
-1.7860447
-1.8050771
长度
0.7071068
0,7071068
-2.54001
0.014165
-1.5593893
H1414899
宽度
-0.70711
-1.2027
-1.00261
-1.1060784
-1.1818569
-1.61781
0.053583
-0.5576367
-1.17642
-0.38731
-0.1414899
-0.88216
-0.68207
・0.879423
-1.S060771
-L8S894
0.655243
T
■0.879423
0.4827303
-0.2805
-0.96319
-0.6527676
-0.3495633
-0.70875
-0.2144
-0.4261122
-1.1318569
-L13701
0.534392
-0.5576367
-0.69562
0.093002
0.6908037
0.187165
-0.78978
-0.1994568
-0.7657101
-0.68248
0.400402
0.02719865
0.27465689
0.213444
-0.17498
0.25385407
0.079453
0.27955
CL06658349
0.226584
0.13242
0.48050948
-69737835
-63438
1.02834
0.48050948
0,6908037
0.328243
-0.148?
0.4805094S
0.8988771
0.975374
-0.29583
1.31502391
1.269634
-0.59009
0,7071649
-0.0414
1.04148
0.93382032
1.001653
0.318969
1.38713115
1.322192
0.639508
图13计算特征向量的公式及语法
0.050988
-6033
L31502391
L73117072
241
L61378657
1.910712
2.365242
2.0670974L93924412
11
图14计算主成分得分根据这个式子,利用Excel计算主成分得分的步骤如下:
2.8329110.090406
力差
1.70560.2944
1将特征向量复制到标准化数据的附近;
2选中一个与标准化数据占据范围一样大小的数值区域(如G2:
H26);
3输入如下计算公式“=mmult(标准化数据的范围,特征向量的范围)”,在本例中就是
“=MMULT(B2:
F3)”(图13);
4同时按下“Ctrl+Shift+Enter”键。
5计算主成分得分的均值和方差,可以发现,均值为0(由于误差之故,约等于0),方差等于特征根。
6最后,可以对主成分得分进行标准化。
已知主成分得分的均值为0,我们不按总体方差
进行标准化,而按样本方差进行标准化。
1D|
|E|
样本序号
可得分
交得分
标准化可
-2,540014
-1.905604
0.0255793
-1.202703
-1.002606
-0.902308
-L810505
-1+617815
0.053583
-L213739
0.096761
-1.176424
-0.387807
-0.882593
-0.700301
-0.882164
-0,682067
-0.661829
-L231676
-1.898935
0,655243
-1.424645
1.1832376
_7
-0.230504
-0.963188
-0.210444
-1.739323
-0.708755
-0.214398
-CL531732
-0.387159
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 利用 Excel 进行 成分 分析 具体操作