利用Excel进行主成分分析的具体操作.docx
- 文档编号:2178251
- 上传时间:2022-10-27
- 格式:DOCX
- 页数:21
- 大小:692.12KB
利用Excel进行主成分分析的具体操作.docx
《利用Excel进行主成分分析的具体操作.docx》由会员分享,可在线阅读,更多相关《利用Excel进行主成分分析的具体操作.docx(21页珍藏版)》请在冰豆网上搜索。
利用Excel进行主成分分析的具体操作
1利用Excel2000进行主成分分析
举例如下:
第一步,录入数据,并对进行标准化。
【例】一组古生物腕足动物贝壳标本的两个变量:
长度和宽度。
A
B
C
D
E
1
样本编号
长度勒
宽度&
利标准化kJ吧标准化/
2
1
3
2
-1.786045
-1.806077
3
2
4
10
-1.559389
-0.141490
4
3
6
5
-1.106078
-L181857
5
4
6
8
-k106078
-0.557637
6
5
6
10
T.106078
-0.141490
7
6
7
2
-0.879423
-1.806077
8
7
7
13
-0.879423
0.482730
9
8
8
9
-0.652768
-0.349563
10
9
9
5
-0.426112
-1.181857
11
10
9
8
-0.426112
-0.557637
12
11
9
14
-0.426112
0.690804
13
12
10
7
-0.199457
-0.765710
14
13
11
12
0.027199
0.274657
15
14
12
10
0.253854
-0.141490
16
15
12
11
0.253854
0.066583
17
16
13
6
0.480509
-0.973784
18
17
13
14
0.480509
0.690804
19
18
13
15
0.480509
0.898877
20
19
13
17
0.480509
1.315024
21
20
14
7
0.707165
-0.765710
22
21
15
13
0.933820
0.482730
23
22
17
13
L387131
0.482730
24
23
17
17
L387131
1.315024
25
24
18
19
L613787
1.731171
26
25
20
20
2.067097
1.939244
27
均值
10.88
10.68
0.0000000.000000
28
19,46560
23.09760
1111
29
标准差
4.41198
4.80600
1
1]
图1原始数据和标准化数据及其均值、方差
(取自张超、杨秉庚《计量地理学基础》)
计算的详细过程如下:
⑴将原始数据绘成散点图(图2)。
主持分分析原则上要求数据具有线性相关趋势
—如果数据之间不相关(即正交),则没有必要进行主成分分析,因为主成分分析的目的就是用正交的变量代替原来非正交的变量;如果原始数据之间为非线性关系,则有必要对数据进行线性转换,否则效果不佳。
从图2可见,原始数据具有线性相关趋势,且测定系
数R2=0.4979,相应地,相关系数R=0.7056。
⑵对数据进行标准化。
标准化的数学公式为
*Xj-Xj
Xj
J
'(xj—Xj)
i4
图2原始数据的散点图
Xj为第i行(即第i个样本)、第j列(即第j个变xij为相应于xij的标准化数据,n二25为样本数目。
对数据标准化的具体步骤如下:
①求出各列数据的均值,命令为average,语法为:
average(起始单元格:
终止单元格)。
如图1所示,在单元格B27中输入
“=AVERAGE(B1:
B26)”,确定或回车,即得第一列数据的均值%=10.88;然后抓住单
元格B27的右下角(光标的十字变细)右拖至C27,便可自动生成第二列数据的均值x2=10.68。
2求各列数据的方差。
命令为varp,语法同均值。
如图1所示,在单元格B28中输入
“=VARP(B2:
B26)”,确定或回车,可得第一列数据的方差Var(xJ=19.4656,右拖至
C28生成第二列数据的方差Var(x2)=23.0976。
3求各列数据的标准差。
将方差开方便得标准差。
也可利用命令stdevp直接生成标准
差,语法和操作方法同均值、方差,不赘述。
4标准化计算。
如图1所示,在单元格D2中输入“=(B2-$B$27)/$B$29”,回车可得
第一列第一个数据“3”的标准化数值-1.786045,然后按住单元格D2的右下角下拖至
D26,便会生成第一列数据的全部标准化数值;按照单元格D2的右下角右拖至E2,就能
生成第二列第一个数据“2”的标准化数据-1.806077,抓住单元格E2的右下角下拖至
E26便会生成第二列数据的全部标准化数值。
5作标准化数据的散点图(图3)。
可以看出,点列的总体趋势没有变换,两种数据
的相关系数与标准化以前完全相同。
但回归模型的截距近似为0,即有a》0,斜率等于
相关系数,即有b=R。
⑶求标准化数据的相关系数矩阵或协方差矩阵。
求相关系数矩阵的方法是:
沿着“工具
(T)”一“数据分析(D)”的路径打开“分析工具(A)”选项框(图4),确定,弹出“相关系数”对话框(图5),在“输入区域”的空白栏中输入标准化数据范围,并以单元格G1为输出区域,具体操作方法类似于回归分析。
确定,即会在输出区域给出相关
图4分析工具选项框
图5相关系数对话框
系数矩阵的下三角即对角线部分,由于系对称矩阵,上三角的数值与下三角相等,故未给出(图6),可以通过“拷贝一一转置一一粘帖”的方式补充空白部分。
G
H
I
J
K
L
相关系数
协方差
列1
列2
列1
列2
列1
1
列1
1
列2
0.705603
1
列2
0.705603
1
图6标准化数据的相关系数和协方差
求协方差的方法是在“分析工具”选项框中选择“协方差”(图7),弹出“协方
差”选项框(图8),具体设置与“相关系数”类似,不赘述。
结果见图6,可以看出,对于标准化数据而言,协方差矩阵与相关系数矩阵完全一样。
因此,二者任取其一即可。
图7在分析工具选项框中选择“协方差”
图8协方差选项框
⑷计算特征根。
我们已经得到相关系数矩阵为
-10.7056〕
C=|
[0.70561一
而二阶单位矩阵为
〔01一
P,即有
0.7071
e>]二
0.7071
-0.7071
It0.7071
该矩阵的一个特殊性质便是pT=P二,即矩阵的转置等于矩阵的逆。
根据D=PTCP,可知
10.70560.70710.70711.70560
0.70710.7071
D二
1(0.7071-0.7071[0.70561|(0.7071-0.707100.2934
下面说明一下利用Excel进行矩阵乘法运算的方法。
矩阵乘法的命令为mmult,语法是mmult(矩阵1的单元格范围,矩阵2的单元格范围)。
例如,用矩阵PT与矩阵C相乘,首先选择一个输出区域如G1:
H2,然后输入“=mmult(A1:
B2,C1:
D2)”,然后按下
“Ctrl+Shift+Enter”键(图9),即可给出
1.2060441.206044
0.20817-0.20817
再用乘得的结果与P阵相乘,便得对角矩阵
SUM.〒
]X==ninuH(Al:
B2,Cl:
D2)
A
B|C
DEF
G1H
1
0.707107
0-707107:
1,000000
0.705603;0.7071070,707107
=mmult(Al;B2hCl:
D2)
2
0.707107
-0.707107:
0.705603
1.00000010.707107-0.707107
1.7056030
00.294397
如果希望一步到位也不难,选定输出区域如C3:
D4,然后输入
“=mmult(mmult(A1:
B2,C1:
D2),E1:
F2)”(图10),同时按下“Ctrl+Shift+Enter”键,立即得到结果(图11)。
显然,对角矩阵对角线的数值恰是相关系数矩阵的特征值。
图9矩阵乘法示例
SW
显然乙勺与Z2之间正交。
Saffi
s・c▼鴨艺為鮎烈JO|(3^
宋体
C3
▼
={=OULT(MULT(Al:
B2,Cl:
D2\El:
F2)}
A
B
1c
D
E
F
1
0.707107
0.707107
1.000000
0.705603
0,707107
0.707107
2
0.707107
-0.707107
0.705603
1.000000
0.707107
-0.707107
3
1-705603
0
4
1o
0.294397
图11乘法结果:
对角矩阵
⑺根据特征根计算累计方差贡献率。
现已求得第一特征根为「=1.7056,第二特征根为
、2=0.2944,二者之和刚好就是矩阵的维数,即有一2二m=2,这里m=2为变量数
目(注意前面的n=25为样本数目)。
比较图6或图10中给出的相关系数矩阵C与图11中给出的对角矩阵D可以看出,Tr.(C)=1+1=2,Tr.(D)=1.7056+0.2944=2,即有Tr.(C)=
Tr.(D),可见将相关系数亦即协方差矩阵转换为对角矩阵以后,矩阵的迹(trace,即对角
线元素之和)没有改变,这意味着将原始变量化为主成分以后,系统的信息量没有减少。
能反映原始变量的多少信
Excel容易算出,第一特征根
累计百分比
85.28%
100.00%
现在问题是,如果我们只取一个主成分代表原来的两个变量,息?
这个问题可以借助相关系数矩阵的特征根来判断。
利用占特征根总和即矩阵维数的85.28%(见下表),即有
特征根累计值百分比
1.7056031.70560385.28%
0.294397214.72%
也就是说:
1:
1.7056,Mm=1.7056/2=85.28%
■2:
0.2944,■2/m=0.2944/m=14.72%■「’2:
2,(r'2)/m=2/2=100%
这表明,如果仅取第一个主成分,可以反映原来数据85.28%的信息一一换言之,舍弃第
二个主成分,原来数据的信息仅仅损失14.72%,但分析变量的自由度却减少一个,整个
分析将会显得更加简明。
⑻计算主成分载荷。
根据公式,容易算出
?
1
-1.7056°.7071=°9235
[0.70711(0.9235
0.7071_0.3837
[-0.7071」一[-0.3837_
⑼计算公因子方差和方差贡献。
根据上述计算结果可以比较公因子方差和方差贡献。
再考虑全部的两个主成分的时候,对应于’1和•2的公因子方差分别为
7、"■/-0.923520.3837^1
j
V2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 利用 Excel 进行 成分 分析 具体操作