6主成分分析Word文档格式.docx
- 文档编号:18410835
- 上传时间:2022-12-16
- 格式:DOCX
- 页数:22
- 大小:194.67KB
6主成分分析Word文档格式.docx
《6主成分分析Word文档格式.docx》由会员分享,可在线阅读,更多相关《6主成分分析Word文档格式.docx(22页珍藏版)》请在冰豆网上搜索。
,"
lines"
)...)
npcs是画出的主成分的个数;
type是画出的碎石图的类型,"
是直方图,"
是折线图。
(6)biplot()函数——信息重叠图
biplot()可画出数据关于主成分的散点图和原坐标在主成分下的方向。
使用格式为
biplot(object,choices=1:
2,scale=1,pc.biplot=FALSE,...)
其中,
choices是选择的主成分,缺省为第一主成分和第二主成分。
二.例题
例1:
在某中学随机抽取某年级30名学生,测量其身高(X1)、体重(X2)、胸围(X3)和坐高(X4),数据如下,试对这30名中学生身体四项指标数据做主成分分析。
####用数据框形式输入数据
>
student<
-data.frame(
X1=c(148,139,160,149,159,142,153,150,151,139,
140,161,158,140,137,152,149,145,160,156,
151,147,157,147,157,151,144,141,139,148),
X2=c(41,34,49,36,45,31,43,43,42,31,
29,47,49,33,31,35,47,35,47,44,
42,38,39,30,48,36,36,30,32,38),
X3=c(72,71,77,67,80,66,76,77,77,68,
64,78,78,67,66,73,82,70,74,78,
73,73,68,65,80,74,68,67,68,70),
X4=c(78,76,86,79,86,76,83,79,80,74,
74,84,83,77,73,79,79,77,87,85,
82,78,80,75,88,80,76,76,73,78)
)
student.pr<
-princomp(student,cor=TRUE)####作主成分分析,选择使用相关系数矩阵
summary(student.pr,loadings=TRUE)###显示结果,方差累积率以及载荷矩阵
Importanceofcomponents:
Comp.1Comp.2Comp.3Comp.4
主成分标准差Standarddeviation1.88178050.559806360.281795940.25711844
方差贡献率ProportionofVariance0.88527450.078345790.019852240.01652747
累积方差贡献率CumulativeProportion0.88527450.963620290.983472531.00000000
Loadings:
Comp.1Comp.2Comp.3Comp.4
X1-0.4970.543-0.4500.506
X2-0.515-0.210-0.462-0.691
X3-0.481-0.7250.1750.461
X4-0.5070.3680.744-0.232
screeplot(student.pr,type="
)###碎石图
由累积方差贡献率和碎石图可以看到,前两个主成分的累计方差贡献率达到96%,另外两个属成分可以舍弃,达到降维的目的。
并且可由载荷矩阵得到:
第一主成分对应的符号都相同,其值在0.5左右,它反映了中学生身材魁梧程度:
身体高大的学生,他的4个部分的尺寸都比较大,因此,第一主成分的值就较小(因为系数均为负值);
而身材矮小的学生,他的4部分的尺寸都比较小,因此第一主成分的值较大。
第二主成分是高度与围度的差,第2主成分值大的学生表明该学生“细高”,而第二主成分值越小的学生表明该学生“矮胖”,因此,称第二主成分为体型因子。
接下来看预测值:
predict(student.pr)####作预测
[1,]0.06990950-0.23813701-0.35509248-0.266120139
[2,]1.59526340-0.718473990.32813232-0.118056646
[3,]-2.847931510.38956679-0.09731731-0.279482487
[4,]0.759969880.80604335-0.04945722-0.162949298
[5,]-2.739667770.017180870.360126150.358653044
[6,]2.105831680.322843930.18600422-0.036456084
[7,]-1.42105591-0.060531650.21093321-0.044223092
[8,]-0.82583977-0.78102576-0.275577980.057288572
[9,]-0.93464402-0.58469242-0.088141360.181037746
[10,]2.36463820-0.365321990.088404760.045520127
[11,]2.837419160.348758410.03310423-0.031146930
[12,]-2.608512240.21278728-0.333980370.210157574
[13,]-2.44253342-0.16769496-0.46918095-0.162987830
[14,]1.866306690.050213840.37720280-0.358821916
[15,]2.81347421-0.31790107-0.03291329-0.222035112
[16,]0.063929830.207184480.043343400.703533624
[17,]-1.55561022-1.70439674-0.331264060.007551879
[18,]1.07392251-0.067634180.022836480.048606680
[19,]-2.521742120.972743010.12164633-0.390667991
[20,]-2.140723770.022178810.374109720.129548960
[21,]-0.796244220.163078870.12781270-0.294140762
[22,]0.28708321-0.35744666-0.039621160.080991989
[23,]-0.251510751.25555188-0.556173250.109068939
[24,]2.057060320.78894494-0.265521090.388088643
[25,]-3.08596855-0.057753180.62110421-0.218939612
[26,]-0.163675550.043179320.244818500.560248997
[27,]1.372650530.02220972-0.23378320-0.257399715
[28,]2.160977780.137332330.355897390.093123683
[29,]2.40434827-0.48613137-0.16154441-0.007914021
[30,]0.502874680.14734317-0.20590831-0.122078819
从第一主成分来看,较小的几个值是25号、3号和5号,因此说明这几个学生身材魁梧;
而11号、15号和29号的值较大,说明这几个学生身材瘦小。
从第二主成分来看,较大的几个值是23号、19号和4号,因此说明这几个学生属于“细高”型;
而17号、8号和2号的值较小,说明这几个学生身材属于“矮胖”型。
做出第一主成分和第二主成分样本的散点图:
biplot(student.pr)
从该图中可以容易地看出:
哪些学生属于高大魁梧型,如25号,哪些学生属于身材瘦小型,如11号或者15号;
哪些属于细高型,如23号,哪些属于矮胖型,如17号。
哪些同学属于正常体型,如26号,等等。
计算综合得分:
###使用mvstats函数包
library(mvstats)
princomp.rank(student.pr,m=2,plot=T)
Comp.1Comp.2PCrank
[1,]0.06990950-0.238137010.0448642115
[2,]1.59526340-0.718473991.4071482422
[3,]-2.847931510.38956679-2.584711272
[4,]0.759969880.806043350.7637158219
[5,]-2.739667770.01718087-2.515526083
[6,]2.105831680.322843931.9608683725
[7,]-1.42105591-0.06053165-1.310440409
[8,]-0.82583977-0.78102576-0.8221962311
[9,]-0.93464402-0.58469242-0.9061917010
[10,]2.36463820-0.365321992.1426826327
[11,]2.837419160.348758412.6350821130
[12,]-2.608512240.21278728-2.379130454
[13,]-2.44253342-0.16769496-2.257580895
[14,]1.866306690.050213841.7186518223
[15,]2.81347421-0.317901072.5588821529
[16,]0.063929830.207184480.0755769416
[17,]-1.55561022-1.70439674-1.567707108
[18,]1.07392251-0.067634180.9811098520
[19,]-2.521742120.97274301-2.237627936
[20,]-2.140723770.02217881-1.964872037
[21,]-0.796244220.16307887-0.7182478112
[22,]0.28708321-0.357446660.2346806117
[23,]-0.251510751.25555188-0.1289811514
[24,]2.057060320.788944941.9539579824
[25,]-3.08596855-0.05775318-2.839763771
[26,]-0.163675550.04317932-0.1468575013
[27,]1.372650530.022209721.2628548421
[28,]2.160977780.137332331.9964481426
[29,]2.40434827-0.486131372.1693418928
[30,]0.502874680.147343170.4739686918
例2:
为了研究我国31个省、市、自治区2001年城镇居民生活消费的分布规律。
用主成分分析法对我国31个省、市、自治区2001年城镇居民生活消费水平作分析评价,并根据因子得分和综合得分对各省、市、自治区的人均消费水平进行综合分析。
数据集:
d7.2。
x1:
人均食品支出x2:
人均衣着商品支出x3:
人均家庭设备用品及服务支出x4:
人均医疗保健支出x5:
人均交通和通信支出x6:
人均娱乐教育文化服务支出x7:
人均居住支出x8:
人均杂项商品和服务支出。
解:
###读取数据
X=read.table("
clipboard"
header=T)##数据集d7.2
###进行主成分分析
PCA=princomp(X,cor=T)
#特征值开方(即主成分的方差开方——主成分的标准差)
PCA
Call:
princomp(x=Z,cor=T)
Standarddeviations:
主成分的方差开方
Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Comp.7
2.27871341.12275560.80440590.62313430.48439130.38235580.2964918
Comp.8
0.2068370
8variablesand31observations.
###累积方差贡献率与载荷矩阵
summary(PCA,loadings=T)
Comp.1Comp.2Comp.3Comp.4
主成分的方差开方Standarddeviation2.27871341.12275560.80440590.62313432
方差贡献率ProportionofVariance0.64906680.15757250.08088360.04853705
累积方差贡献率CumulativeProportion0.64906680.80663940.88752300.93606002
Comp.5Comp.6Comp.7Comp.8
Standarddeviation0.484391310.382355760.296491850.206836981
ProportionofVariance0.029329370.018274490.010988430.005347692
CumulativeProportion0.965389390.983663880.994652311.000000000
Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Comp.7Comp.8
X1-0.4000.3010.1330.492-0.2150.604-0.274
X2-0.1410.7520.358-0.488-0.183-0.103
X3-0.363-0.492-0.4920.3210.526
X4-0.3420.262-0.5350.328-0.521-0.1160.367
X5-0.401-0.1350.377-0.1810.3440.1100.714
X6-0.410-0.2110.286-0.618-0.4630.329
X7-0.288-0.5760.140-0.427-0.485-0.222-0.310
X8-0.3990.1070.2150.4550.322-0.521-0.447
Loadings的内容是主成分对应于原始变量X1、X2、X3、X4、X5、X6、X7、X8的系数,即前面介绍的矩阵Q。
因此可得到:
(这里的*指标准化后的结果)
……..
我们从第一主成分对应系数的符号可以看出,x1到x8消费越高,Z1*的值越小,Z1*的绝对值越大。
从第二主成分来看,正号大小多过负号大小,可认为x1到x8消费越高,Z2*的值越大。
###碎石图
screeplot(PCA,type="
按照累计方差贡献率大于80%的原则,选定了两个主成分,其累计方差贡献率为80.7%,本例取m=2。
从碎石图上也可以看出m取2比较合适。
###计算主成分得分
predict(PCA)
或>
PCA$scores
Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Comp.7Comp.8
北京-6.08816412.09605700-0.9677845300.257768030.00053523980.37264097-0.2593136440.101898159
天津-2.6531538-0.89692239.024*******
河北1.16213650.30058573-0.7845046910.021938940.7896821227-0.098367650.6501938650.212926202
山西1.64997150.43010054-0.4609584740.406461780.36908743710.07020928-0.2045883600.050284508
内蒙古1.63144620.576088230.4412318530.067157040.2598856038-0.12973344-0.5102296070.174135101
辽宁1.24292820.75205167-0.0517530550.335189420.42128335120.498941810.4306594410.003292285
吉林1.64593490.253548500.1121234550.219030960.45798756440.325788580.139150622-0.007332857
黑龙江1.81627840.31636032-0.2549676500.258323680.54303707630.429920660.2619952550.089928521
上海-5.9388303-0.161270860.4130648011.23263843-0.57795649550.738339440.2395402300.019023710
江苏-0.16827820.03012142-0.233423513-0.26671292-0.8701181382-0.656790590.0211919740.137926258
浙江-4.41783770.39587163-0.969755399-0.75820971-0.0758300384-0.568478980.052117591-0.286139927
安徽1.8800460-0.387295380.304359563-0.03960882-0.87859491130.265983940.1469057610.144447324
福建-0.4665698-0.901744900.729825867-0.32744781-0.3734575948-0.268796680.652548503-0.146259386
江西2.5741394-1.495449120.305732170-0.13992335-0.47006093920.05081704-0.2697751230.013447409
山东0.10424081.12235349-0.187443665-0.81020523-0.19912895100.07042515-0.3530621970.196000659
河南1.8817327-0.80438760-0.167097210-0.568442250.90283196180.130391240.125025151-0.408239412
湖北1.1608958-0.213437630.346801704-0.80620043-0.04527730920.72568824-0.295122773-0.070358039
湖南-0.4165050-0.44372643-0.001396215-0.473405710.24321477560.40431003-0.4676587370.040373645
广东-4.609656
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析