主成分回归多重共线性.docx
- 文档编号:2948232
- 上传时间:2022-11-16
- 格式:DOCX
- 页数:10
- 大小:53.48KB
主成分回归多重共线性.docx
《主成分回归多重共线性.docx》由会员分享,可在线阅读,更多相关《主成分回归多重共线性.docx(10页珍藏版)》请在冰豆网上搜索。
主成分回归多重共线性
主成分回归多重共线性
实验八:
主成分回归
实验题目:
对例5.5的Hald水泥问题用主成分方法建立模型,并与其他方法的结果进行比较。
例5.5如下:
本例为回归经典的Hald水泥问题。
某种水泥在凝固时放出的热量y(卡/克,cal/g)与水泥中的四种化学成分的含量(%)有关,这四种化学成分分别是x1铝酸三钙(3CaO.Al2O3),x2硅酸三钙(3CaO.SiO2),x3铁铝酸四钙(4CaO.Al2O3.Fe2O3),x4硅酸三钙(2CaO.SiO2)。
现观测到13组数据,如表5-3所示。
表5-3
x1
x2
x3
x4
y
7
26
6
60
78.5
1
29
15
52
74.3
11
56
8
20
104.3
11
31
8
47
87.6
7
52
6
33
95.9
11
55
9
22
109.2
3
71
17
6
102.7
1
31
22
44
72.5
2
54
18
22
93.1
21
47
4
26
115.9
1
40
23
34
83.8
11
66
9
12
113.3
10
68
8
12
109.4
实验目的:
多重共线性的诊断及解决方法、利用主成分回归解决多重共线性问题。
SPSS输出结果及答案:
一、主成分法:
多重共线性诊断:
相关性
y
x1
x2
x3
x4
y
Pearson相关性
1
.731**
.816**
-.535
-.821**
显著性(双侧)
.005
.001
.060
.001
N
13
13
13
13
13
x1
Pearson相关性
.731**
1
.229
-.824**
-.245
显著性(双侧)
.005
.453
.001
.419
N
13
13
13
13
13
x2
Pearson相关性
.816**
.229
1
-.139
-.973**
显著性(双侧)
.001
.453
.650
.000
N
13
13
13
13
13
x3
Pearson相关性
-.535
-.824**
-.139
1
.030
显著性(双侧)
.060
.001
.650
.924
N
13
13
13
13
13
x4
Pearson相关性
-.821**
-.245
-.973**
.030
1
显著性(双侧)
.001
.419
.000
.924
N
13
13
13
13
13
**.在.01水平(双侧)上显著相关。
由表可知,x1,x2,x4的相关性都比较大,较接近,所以存在多重共线性
主成分回归:
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
合计
方差的%
累积%
1
2.236
55.893
55.893
2.236
55.893
55.893
2
1.576
39.402
95.294
1.576
39.402
95.294
3
.187
4.665
99.959
.187
4.665
99.959
4
.002
.041
100.000
.002
.041
100.000
提取方法:
主成份分析。
输出结果显示有四个特征根,最大的是λ1=2.236,最小的是λ4=0.002。
方差百分比显示第一个主成分Factor1的方差百分比近56%的信息量;前两个主成分累计包含近95.3%的信息量。
因此取两个主成分就已经足够。
由于前两个主成分的方差累计已经达到95.3%,故只保留前两个主成分。
成份矩阵a
成份
1
2
3
4
x1
.712
-.639
.292
.010
x2
.843
.520
-.136
.026
x3
-.589
.759
.275
.011
x4
-.819
-.566
-.084
.027
提取方法:
主成分
a.已提取了4个成份。
由解释的总方差表中累计贡献性知,f1和f2的累计贡献性就在85%~95%之间。
所以主成分取f1,f2。
得到因子得分的数值,并对其进行处理:
sqrt(2.236)*FAD1_1,sqrt(1.576)*FAD2_1可以得出主成分表(f1f2)。
对f1f2进行普通最小二乘线性回归
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
95.423
.855
111.635
.000
f1
9.882
.595
.982
16.610
.000
f2
.125
.709
.010
.176
.864
a.因变量:
y
由系数表可得,主成分回归方程为:
^y=95.423+9.882f1+0.125f2
分别对两个主成分f1和f2做因变量,以4个原始自变量为自变量做线性回归
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
-.643
.000
.
.
x1
.081
.000
.318
.
.
x2
.036
.000
.377
.
.
x3
-.062
.000
-.264
.
.
x4
-.033
.000
-.366
.
.
a.因变量:
f1
f1=-0.643+0.081x1+0.036x2-0.062x3-0.033x4
对f2和x1x2x3x4进行回归
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
-.938
.000
-1119037.661
.000
x1
-.087
.000
-.405
-9710099.545
.000
x2
.027
.000
.330
3071727.057
.000
x3
.094
.000
.482
10459854.955
.000
x4
-.027
.000
-.359
-3177724.589
.000
a.因变量:
f2
f2=-0.938-0.087x1+0.027x2+0.094x3-0.027x4
所以还原后的主成分回归方程为:
^y=88.951624+0.789567x1+0.359127x2-0.600934x3-0.329481x4
从主成分法得出的方程中我们可以看出某种水泥在凝固时放出的热量与铝酸三钙,硅酸三钙成正比,与铝酸四钙和硅酸二钙成反比,且当该水泥放出1单位的热量时,需要消耗0.789567g的铝酸三钙和0.359127g的硅酸三钙;当该水泥吸收1单位的热量时,需要消耗0.600934g的铝酸四钙和0.329481g的硅酸二钙。
二.岭回归法
首先做普通二乘回归,得到结果如下:
系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准误差
试用版
容差
VIF
1
(常量)
62.405
70.071
.891
.399
x1
1.551
.745
.607
2.083
.071
.026
38.496
x2
.510
.724
.528
.705
.501
.004
254.423
x3
.102
.755
.043
.135
.896
.021
46.868
x4
-.144
.709
-.160
-.203
.844
.004
282.513
由系数表中的方差扩大因子VIF可以初步看出直接建立的线性模型具有严重的共线性,所以我们直接用岭回归方法进行处理,与再与主成分法进行比较。
岭回归
INCLUDE'C:
\ProgramFiles\IBM\SPSS\Statistics\19\Samples\English\RIDGEregression.sps'.
RIDGEREGenterx1x2x3x4
/dep=y
R-SQUAREANDBETACOEFFICIENTSFORESTIMATEDVALUESOFK
KRSQx1x2x3x4
____________________________________________
.00000.98238.606512.527706.043390-.160287
.05000.98092.465987.298422-.092800-.394132
.10000.97829.429975.299810-.115702-.382409
.15000.97492.403545.300180-.129867-.370747
.20000.97105.382726.299130-.139136-.360181
.25000.96676.365601.297070-.145317-.350594
.30000.96212.351071.294335-.149432-.341806
.35000.95717.338452.291156-.152107-.333674
.40000.95195.327295.287687-.153747-.326089
.45000.94649.317289.284036-.154628-.318970
.50000.94082.308211.280279-.154942-.312254
.55000.93497.299900.276467-.154827-.305892
.60000.92897.292231.272638-.154384-.299846
.65000.92284.285109.268820-.153688-.294083
.70000.91660.278460.265032-.152797-.288577
.75000.91027.272222.261287-.151756-.283306
.80000.90386.266349.257597-.150598-.278251
.85000.89740.260798.253968-.149351-.273396
.90000.89089.255537.250406-.148037-.268726
.95000.88436.250537.246913-.146671-.264228
1.0000.87780.245775.243491-.145269-.259892
由上述的岭迹图可以看出,所有的回归系数的岭迹线的稳定性较强,整个系统呈现比较平稳的现象,所以我们可以对最小二乘有信心,且x1,x2的岭迹线一直在零的上,对y产生正影响,而x3,x4系数的岭迹线一直小于零,所以对y产生负影响。
再做岭回归:
当岭参数k=0.2时,4个自变量的岭回
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 回归 多重 线性