多重共线性补充部分.docx
- 文档编号:27317728
- 上传时间:2023-06-29
- 格式:DOCX
- 页数:15
- 大小:95.42KB
多重共线性补充部分.docx
《多重共线性补充部分.docx》由会员分享,可在线阅读,更多相关《多重共线性补充部分.docx(15页珍藏版)》请在冰豆网上搜索。
多重共线性补充部分
四、多重共线性的解决方法
设定计量经济模型的时候,为了全面反映各方面因素的影响,总是在理论和实践认识的基础上,尽量选取被解释变量的所有影响因素。
这样在同时考虑多个影响因素的情况下,很可能产生多重共线性问题。
在处理多重共线性之前,首先应该明确以下两点:
第一,多重共线性的主要后果是无法区分每个解释变量的单独影响,因此,如果建立模型的目的是进行预测,只要模型的拟台优度较高(即能正确反映所有解释变量的总影响),并且解释变量的相关类型在预测期内保持不变,则可以忽略多重共线性的问题。
但是,如果是应用模型进行结构分析或政策评价,即利用系数分析、比较各个解释变量的单独影响,则需要消除多重共线性的影响。
第二,引起多重共线性的原因是模型中存在相关的解释变量,所以消除多重共线性的根本方法只能是从模型中剔除这些变量。
但直接剔除变量可能会产生新的问题:
(1)模型的经济意义不合理;例如,生产函数中资金与劳动者人数通常是高度相关的,但从中剔除任何一个要素都不太合适。
(2)如果剔除的是重要解释变量。
则这些变量的影响将反映在随机误差项中,使模型产生异方差性或自相关性。
(3)若剔除不当还会产生设定误差的问题,造成参数估计严重有偏。
因此,为了解决这一矛盾,剔除变量时应该全面、慎重考虑,根据解释变量的特点分别采用直接剔除和间接剔除两种方式。
(一)直接剔除次要或可替代的变量
根据经济理论和实际经验设定计量经济模型时容易考虑过多的解释变量,其中有些可能是无显著影响的次要变量,还有一些变量的影响可以用模型中的其他变量来代替。
所以在估计模型之前,为避免多重共线性的影响,应该从模型中先剔除这些变量。
次要变量可以通过被解释变量与解释变量的相关系数检验、相关图分析等统计分析加以鉴别;利用辅助回归模型和特征值检验多重共线性时,又可以提供解释变量之间相互替代性的信息。
(二)间接剔除重要的解释变量
对于有重要影响的解释变量,可以通过以下方式将其“间接剔除”:
1.利用附加信息
例如,著名的Cobb-Douglas生产函数中
Y=ALαKβ
劳动投入量L与资金投入量K之间通常是高度相关的,如果己知附加信息:
α十β=l(规模报酬不变)
则Y=AL1-βKβ=AL(K/L)β
Y/L=A(K/L)β
记y=Y/L,k=K/L
则C-D生产函数可以表示成:
Y=AKβ
此时二元模型转化成—元模型,当然不存在多重共线性的问题,可以利用OLS法估计
,进而得到
。
又如,设工业能源需求函数为:
其中
,
分别为重、轻工业总产值。
利用此模型不仅能反映工业经济增长对能源的需求情况,而且可以反映工业结构变化对能源需求的影响。
但是重、轻工业发展的共向性,很可能使模型产生多重共线性。
由于
,
分别是重、轻工业的单位能耗,如果根据历史统计资料测得重工业的单位能耗(平均来说)是轻工业单位能耗的
倍(
>o),即获得以下附加信息:
=
则工业能源需求函数可以表示成:
其中
,模型转化成一元模型,估计出
之后,又得到
,从而在消除多重共线性影响的情况下得到工业能源需求函数:
2.变换模型的形式
对原设定的模型进行适当的变换,也可以消除或削弱原模型中解释变量之间的相关关系。
具体有三种变换方式,一是变换模型的函数形式,如将线性模型转换成双对数模型、半对数模型、多项式模型等;二是变换模型的变量形式,如引入差分变量、相对数变量等,三是改变变量的统计指标,如将生产过程中的资金投入量取成固定资金或流动资金(或两者之和),劳动投入量取成职工人数或工资总额,经济增长指标取成GDP、GNP、国民收入等。
例如,若将需求函数取成:
则商品自价格P0与互价格P1之间往往是高度相关的,此时可以用相对价格P0/P1综合反映价格因素的影响,而将需求函数设成:
3,综合使用时序数据与横截面数据。
如果能同时获得变量的时序数据和横截面数据,则先利用某类数据估计出模型中的部分参数,再利用另一类数据估计模型的其余参数。
例如,设某类商品的需求函数为:
其中,y为商品需求量,x,P分别为居民收入和该商品价格在时序样本数据中x与P高度相关。
为此,
(1)收集最近一年该商品的销售量和居民收入的统计资料(横截面数据),由于商品价格在一年内的变化幅度不大,所以将需求函数取成:
利用横截面资料估计该模型,得到需求的收入弹性a1。
(2)原需求函数中的b1也是需求的收入弹性,所以
(此时实际上假设历年的平均收入弹性与近期的收入弹性近似相等),将原模型变换成:
其中,
。
再利用历年商品销售量、居民收入和价格的统计资料(时序数据)估计模型,得到
,从而在消除多重共线性影响的情况下,估计出需求函数:
从上述三种力法的处理过程可以看出,最终还是通过减少模型中解释变量个数的方式(即剔除引起多重共线性的变量)来消除多重共线性的影响,但并不是直接剔除有重要影响的解释变量,模型中还是保留了这些变量的影响,所以称之为“间接剔除”。
(三)逐步回归
建立计量经济模型的那个时候,一般是将解释变量全部引入模型,然后再根据统计检验和定性分析从中逐个剔除次要的或产生多重共线性变量,选择变量是一个“由多到少”的过程。
而逐步回归选择时,却是一个“由少到多”的过程,即从所有解释变量中间先选择影响最为显著的变量建立模型,然后再将模型之外的变量逐个引入模型;每引入一个变量,就对模型中的所有变量进行一次显著性检验,并从中剔除不显著的变量;逐步引入—剔除—引入,直到模型之外所有变量均不显著时为止。
许多统计分析软件都有逐步回归程序,但根据计算机软件自动挑选的模型往往统计检验合理,经济意义并不理想。
因此,实际应用中一般是根据逐步回归的原理,结合主观分析来筛选变量。
具体步骤为:
(1)利用相关系数从所有解释变量中选取相关性最强的变量建立一元回归模型。
(2)在一元回归模型中分别引入第二个变量,共建立k-1个二元回归模型(设共有k个解释变量),从这些模型中再选取一个较优的模型。
选择时要求:
模型中每个解释变量影响显著,参数符号正确,
2值有所提高。
(3)在选取的二元回归模型中以同样方式引入第三个变量;如此下去,直到无法引入新的变量时为止。
【例5】服装需求函数。
根据理论和经验分析,影响居民服装需求的主要因素有:
可支配收入X、流动资产拥有量K、服装类价格指数P1和总物价指数P0。
表3-4给出了有关统计资料。
表3-4服装需求函数有关统计资料
年份
服装需求
可支配收入X
流动资产拥有量K
服装类价格指数P1
总物价指数P0
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
8.4
9.6
10.4
11.4
12.2
14.2
15.8
17.9
19.3
20.8
82.9
88.0
99.9
105.3
117.7
131.0
148.0
161.8
174.2
184.7
17.1
21.3
25.1
29.0
34.0
40.0
44.0
49.0
51.0
53.0
92
93
96
94
100
101
105
112
112
112
94
96
97
97
100
101
104
109
111
111
设服装需求函数为:
(1)相关系数检验
键入:
CORYXKP0P1
输入的相关系数矩阵为:
Y
X
K
P0
X
K
P0
P1
0.9977
0.9834
0.9887
0.9755
0.9883
0.9877
0.9804
0.9695
0.9700
0.9918
可见每个因素都与服装要求高度相关,而且解释变量之间也是高度相关的。
现按照逐步回归原理建立模型。
(2)建立一元回归模型
根据理论分析,可支配收入应该是服装需求最主要的影响因素;相关系数检验也表明,收入与服装要求的相关性最强。
所以,以
作为最基本的模型。
(3)将其余变量逐个引入模型,估计结果列入表3-5(其中括号里的数字为t统计量值)。
表3-5服装需求函数逐步回归分析结果
模型
X
P1
P0
K
R
R2
Y=f(X)
0.1179
0.9950
0.9956
Y=f(X,p1)
0.1262
(8.57)
-0.0378
(-0.57)
0.9965
0.9958
Y=f(X,p0)
0.1030
(5.67)
0.0857
(0.83)
0.9948
0.9960
Y=f(X,K)
0.1315
(7.03)
-0.0388
(-0.74)
0.9947
0.9959
Y=f(X,P1,P0)
0.1042
(7.55)
-0.1866
(-2.47)
0.3132
(2.59)
0.9970
0.9980
Y=f(X,P1,P0,K)
0.0978
(3.71)
-0.1972
(2.24)
0.3401
(0.30)
0.0144
(0.30)
0.9965
0.9980
从表3-5的估计结果可以看出,在基本模型中引入P1之后,b1,b2的符号正确,但P1的t检验不显著,同时拟合优度R2提高不多,
2反而下降,同理再分别引入其他两个解释变量,引入的变量都不显著,但相对来说,模型Y=f(X,p0)的拟合优度最高,所以再将该模型作为基本模型,逐步引入其他变量。
引入P1之后,模型中各个系数的符号合理,解释变量的t检验也都是显著的,并且拟合优度R2和
2都有所提高。
在此基础上再引入K,其t检验不显著,为多余变量。
经过以上的逐步引入检验过程,最终确定服装需求函数为:
(7.55)(-2.47)(2.59)
R2=0.9980
2=0.9970DW=3.5
从本例的讨论过程可以看出:
(1)模型中引入相关性较强的解释变量会影响系数的估计值和t检验值,这正是多重共线性的主要影响。
(2)在模型中添加解释变量,不论其影响是否显著都会使R2得值上升;但
2得值却不一定增加,增添不显著的解释变量甚至可能会使
2得值下降。
所以,比较不同模型的拟合优度时,取
2比较合理。
另外,该需求模型还存在两个问题,一是DW值接近于4,可能存在相关性;二是样本容量太小,n=10却要考虑引入4个解释变量,样本的自由度只有10-4-1=5;所以模型的估计结果可能并不可靠,过高的拟合优度也可能提供的是虚假信息。
本例只是为了说明多重共线性的处理过程,实际应用中只有在样本容量较大的情况下,才能考虑引入多个解释变量。
(四)主成分回归
主成分回归(PrincipalComponentsPegression,简称PCR)是根据多元统计分析中的主成分分析原理、用于处理多重共线性模型的一种新的参数估计方法。
其基本原理是:
利用主成分分析将解释变量转换成若干个主成分,这些主成分从不同侧面反映了解释变量的综合影响,并且互不相关。
因此,可以将被解释变量关于这些主成分进行回归,再根据主成分与解释变量之间的对应关系,求得原回归模型的估计方程。
主成分回归的具体步骤为:
(1)对原始样本数据做标准化处理,这样矩阵X’X即为解释变量的相关系数矩阵R。
(2)计算R的k个特征值
,以及相应的标准化特征向量
。
(3)利用特征值检验多重共线性。
模型存在多重共线性时,至少有一个特征值近似地等于零,不妨设
近似为零,这表明解释变量之间存在着k-m个线性相关关系。
(4)设解释变量(已标准化)X1,X2,…,Xk的k个主成分为:
(3一18)
其中,Zi互不相关,并且Zm+1,Zm+2,…,Zk近似为零。
将(标准化的)被解释变量Y关于m个主成分
进行回归,得:
(3—19)
(5)根据主成分与解释变量之间的关系式(3一18),将其代入主成分回归方程(3—19)式,求得用标准化数据表示的x1,X2,…,Xk的回归方程:
系数
与原模型中参数bi之间的关系为:
其个,
分别为y和xi的标准差;由此可以计算出原回归模型中的参数,进而得到:
[例6]中国民航客运量预测模型,为了研究我国民航客运量的变化趋势及其成因,经分析选挥了以下解释变量:
居民消费额xl(亿元)、政府消费额x2(亿元)、铁路客运量x3(万人)、来华旅游人境人数x4(万人)、民航航线里程x5(万公里),并取中国民航客运量y(万人)作为被解释变量。
有关统计资料列入表3—6。
表3—6民航客运置及其影响因素的统计资料
年份
民航客运量y
居民消费额xl
政府消费额x2
铁路客运量x3
华旅游人境人数x4
民航航线里程x5
1978
231
1759.1
480
81491
180.92
14.89
1979
298
2005.4
614
86389
420.39
16.00
1980
343
2317.1
659
92204
570.25
19.53
1981
401
2604.1
705
95300
776.71
21.82
1982
445
2867.9
770
99922
792.43
23.27
1983
391
3182.5
838
106044
947.70
22.91
1984
554
3674.5
1020
113530
1285.22
26.02
1985
747
4589.0
1184
112110
1783.30
27.72
1986
997
5175.0
1367
108579
2281.95
32.43
1987
1310
5961.2
1490
112479
2690.23
38.91
1988
1442
7633.1
1727
122645
3169.48
37.38
1989
1283
8523.5
2033
113807
2450.14
47.19
1990
1660
9113.2
2252
95712
2746.20
50.68
1991
2178
10315.9
2830
95080
3335.65
55.91
1992
2886
12459.8
3492
99693
3311.50
83.66
1993
3383
15682.4
4500
105458
4152.70
96.08
1994
4038
20809.8
5968
108738
4368.45
104.56
1995
5117
26944.5
6690
102745
4638.65
112.90
1996
5555
32152.3
7852
94162
5112.75
116.65
1997
5630
34854.6
8725
92578
5758.79
142.50
1998
5755
36921.1
9485
93620
6347.84
150.58
(1)多重共线性检验
由于选择的影响因素较多,所以估计模型之前,应该先分析各个因素与被解释变量之间的关系,以及因素之间的相关程度。
利用SCAT命令观察了y与各个解释变量xi的相关图之后,再用COR命令进行相关系数检验,输出的相关系数矩阵为:
Yx1x2x3x4
X1
0.9862
X2
0.98960.9969
X3
-0.1199-0.1567-0.1569
X4
0.95530.93770.94200.0779
X5
0.98780.97780.9877-0.11400.9569
计算结果表明,除铁路客运量x3之外,其他因素与民航客运量高度相关;而且解释变量之间也是两两高度相关的。
为了进一步检验解释变量之间的相关关系,利用SPSS软件计算出解释变量相关系数矩阵的特征值为:
3.991,
1.028,
0.04l,
=0.019,
=0.00133
此时,
,即(标准化后的)样本数据矩阵
是—个病态矩阵,而且病态(条件)数和病态指数分别为:
CI=
因此,模型存在严重的多重共线性。
如果此时用OLS法估计模型,将得到以下估计结果:
=一48.39十0.0766x1-0.0027x2一0.0025x3+0.1477x4+19.0572x5
t=(0.92)(—0.01)(—0.31)(0.95)(1.48)
R2=0.9862DW=0.92
模型中所有解释变量的t检验均不显著,并且x2的系数符号不合理。
(2)主成分回归
现采用主成分回归解决多重共线性问题。
根据SPSS软件的计算结果,
所对应主成分的累计贡献率已达到98.77%,
对应的标准化特征向量为:
=(0.992,0.996,一0.120,0.965,0.993)
=(一0.04l,一0.040,0.992,0.202,0.00523)
所以两个主成分为:
其中,X:
均为标准化后的解释变量。
从主成分中各变量的系数可以看出,第一主成分Z1主要反映了Xl,X2,X4和X5的变化,即综合反映了与民航客运量正相关因素的影响;第二主成分Z2主要反映了铁路客运量X3的变化,即与民航客运量负相关因素的影响。
在SPSS软件中可以自动生成主成分Zl,Z2的样本值(又称为样本得分值),将其转入Eviews软件之后,先对变量y进行标准化处理:
GENRYZ=(Y一2125.91)/1982.43
再将标准化后的Y关于Z1Z2回归:
:
0.261920Z1—0.015772Z2
t=(43.71)〔—0.71)
R2=O.9936,DW=1.77
值得注意的是,主要反映铁路客运量x3变化的第二主成分Z2的T检验不显著。
结合前面的相关系数检验结果,y与x3的相关系数只有一0.1199,似乎应该将x3(以及Z2)从模型中剔除。
对此需要做进一步分析,目前我国乘坐火车、飞机外出旅行人员基本上属于两个相对独立的群体,几乎不存在此涨彼落的现象;但是随着我国经济水平的不断提高,两者之间肯定会相互影响,所以分析民航客运量未来变化趋势时,应该考虑铁路运输的影响。
而且从表3—6的资料中也可以看出,由于受提价、铁路运输紧张等因素的影响,铁路客运量的发展过程是波动起伏的,这样在数据上就与一直稳步上升的民航客运量呈现弱相关。
另外,如果在主成分回归中只保留了Z1,则其贡献率只有78.21%,不能充分反映各因素变化的影响。
综合以上分析,模型中还是应该保留Z2(以及x3)。
(3)最终模型
将各主成分Z1,Z2与Xi之间的关系代入主成分回归模型,得:
0.261920(0.992X1十0.996X2一0.12X3十0.965X4
十o.993X5)一0.015772(一0.041X1—0.04X2十0.992X3
十0.202X4十0.005X5)
=0.260471X1十0.261503X2一0.047076X3+0.249567X4
十0.260004X5
此时模型中各变量为标淮化变量。
在Eviews软件的数组窗口中利用描述统计命令可以得到各个变量的均值和标准差(见表3—7),再利用公式(3—20)可以求得小国民航客运量的预测模型为:
539.43十0.04482x1十0.1773x2—0.0090x3十0.2689x4十11.6986x5
将拟合预测值与实际值比较后得知,模型有很高的拟合优度,并且模型中各变量系数符号的经济意义合理。
表3—7变量的均值与标准差
变量
均值
标准差
y
2125.91
1982.43
539.43
x1
11883.14
11535.83
0.260471
0.044762
x2
3080.90
2924.06
0.261503
0.177291
x3
101537.40
10359.13
-0.047076
-0.009009
x4
2720.06
1839.77
0.249567
0.268918
x5
59.20
44.06
0.260004
11.698560
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多重 线性 补充 部分
![提示](https://static.bdocx.com/images/bang_tan.gif)