第三章K元线性回归模型.docx
- 文档编号:5627933
- 上传时间:2022-12-29
- 格式:DOCX
- 页数:11
- 大小:40.43KB
第三章K元线性回归模型.docx
《第三章K元线性回归模型.docx》由会员分享,可在线阅读,更多相关《第三章K元线性回归模型.docx(11页珍藏版)》请在冰豆网上搜索。
第三章K元线性回归模型
第三章K元线性回归模型
一、填空题
1.对于模型Yi=Bo+斷+B2Xi2十…+BkXik+比,i=i,2,…,n一般经验认为,
满足模型估计的基本要求的样本容量为__
2.对于总体线性回归模型丫-「2Xi2「3Xi3•比,运用最小二乘法欲
得到参数估计量,所要求的最小样本容量n应满足或至少。
3.多元线性计量经济学模型的矩阵形式,对应的样本线性回归模型的矩
阵形式,模型的最小二乘参数估计量及其方差估计
量。
4.总平方和可以分解为和,可决系数为。
5.多元回归方程中每个解释变量的系数(偏回归系数),指解释变量变化一个单位引
起的被解释变量平均变化个单位。
6.线性模型的含义,就变量而言,指的是回归模型变量的;就参数而言,指
的是回归模型中参数的。
通常线性回归模型指的是。
二、问答题
1.什么是多元回归模型?
它与一元、二元回归模型有何区别?
2.极大似然法(maximumlikehood)的原理是什么?
3.什么是拟合优度(R2)检验?
有什么作用?
4.可决系数R2低的可能的原因是什么?
5.多元回归的判断系数R2具有什么性质?
运用R2时应注意什么问题?
6.多元线性回归模型的基本假设是什么?
试说明在证明最小二乘估计量的无偏性和有效性的过程中,哪些基本假设起了作用?
7.说明区间估计的含义。
三、实践题
1.下表给出三变量模型的回归结果:
方差来源
平方和(SS)
自由度(d.f.)
均方差(MSS)
回归平方和(ESS)
65965
残差平方和(RSS)
总平方和(TSS)
66042
14
要求:
(1)样本容量是多少?
(2)求RSS?
(3)ESS和RSS的自由度各是多少?
(4)
22
求R和R?
(5)检验假设:
X1和X2对Y无影响。
你用什么假设检验?
为什么?
(6)根
据以上信息,你能否确定X1和X2各自对Y的贡献吗?
2.下面给出依据15个观察值计算得到的数据,其中小写字母代表了各值与其样本均值
的离差口J向SIo
—2
Y=367.693,Xi=402760,X2=8.0,、yi66042.269
22
Xii=84855.096,、'x?
i二280.0,、'yj=74778.346
7yiX2i=4250.9,、:
Xi,X2i=4796.0
2
要求:
(1)估计三个多元回归系数;
(2)估计它们的标准差;并求出R2与R?
(3)估计;、■:
295%的臵信区间;(4)在:
.=5%下,检验估计的每个回归系数的统计显著性(双
尾检验);(5)给出方差分析表。
3•考虑以下方程(括号内为估计标准差):
n=19,R2=0.873
Wi=8.562-0.364Pt-0.004Pt—2.560Ut
(0.080)(0.072)(0.658)
其中:
W—t年的每位雇员的工资和薪水;P—t年的物价水平;U—t年的失业率。
要求:
(1)对个人收入估计的斜率系数进行假设检验;
(2)讨论pt丄在理论上的正确性,对本模型的正确性进行讨论;Pt」是否应从方程中
删除?
为什么?
4.克莱因和戈德伯格曾用1921-1941年与1945-1950年(1942-1944年战争期间略去)
美国国内消费C和工资收入W、非工资一非农业收入P、农业收入A的共27年时间序列资料,利用普通最小二乘法估计得出了下列回归方程:
2
R=0.95,F=107.37
Ct=8.133-1.059Wt-0.452Pt-0.121At
(8.9(20).17()0.45(21).0
题。
(显著性水平〉=5%,已知F0.05(3,23)=3.03,t0.025(23)=2.069)
5.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为
2edu=10.36-0.094sibs0.131medu0.210fedu,R=0.214
式中,edu为劳动力受教育年数,sibs为该劳动力家庭中兄弟姐妹的个数,medu与fedu
分别为母亲与父亲受到教育的年数。
问
(1)sibs是否具有预期的影响?
为什么?
若medu与fedu保持不变,为了使预测的受教
育水平减少一年,需要sibs增加多少?
(2)请对medu的系数给予适当的解释。
(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数为12年,另一
个的父母受教育的年数为16年,则两人受教育的年数预期相差多少?
6.以企业研发支出(R&D)占销售额的比重为被解释变量(Y),以企业销售额(X1)与利润占销售额的比重(X2)为解释变量,一个有32个企业的样本估计结果如下:
Y=0.472U-0.32log(X1)■0.05X2
(1.37)(0.22)(0.046),R2=0.099
其中括号中为系数估计值的标准差。
(1)解释log(X1)的系数。
如果X1增加10%,估计Y会变化多少个百分点?
这在经济上是一个很大的影响吗?
(2)针对R&D强度随销售额的增加而提高这一备择假设,检验它不虽X1而变化的假设。
分别在5%和10%的显著性水平上进行这个检验。
(3)利润占销售额的比重X2对R&D强度Y是否在统计上有显著的影响?
(3)对X2,参数估计值的t统计值为0.05/0.46=1.087,它比在10%的显著性水平下的临界值还小,因此可以认为它对Y在统计上没有显著的影响。
7.下表为有关经批准的私人住房单位及其决定因素的4个模型的估计量和相关统计值
(括号内为p-值)(如果某项为空,则意味着模型中没有此变量)。
数据为美国40个城市的
数据。
模型如下:
housing=:
0—,jdensityl'.-'2valu^■■.-,3income—j4popchang
亠.5unemp亠.6localtax亠7statetax-J
式中housing实际颁发的建筑许可证数量,density每平方英里的人口密度,value自由房屋的均值(单位:
百美元),income平均家庭的收入(单位:
千美元),popchang1980~1992年的人口增长百分比,unemp失业率,localtax人均交纳的地方税,statetax人均缴纳的州税
变量
模型A
模型B
模型C
模型D
C
813(0.74)
-392(0.81)
-1279(0.34)
-973(0.44)
Density
0.075(0.43)
0.062(0.32)
0.042(0.47)
Value
-0.855(0.13)
-0.873(0.11)
-0.994(0.06)
-0.778(0.07)
Income
110.41(0.14)
133.03(0.04)
125.71(0.05)
116.60(0.06)
Popchang
26.77(0.11)
29.19(0.06)
29.41(0.001)
24.86(0.08)
Unemp
-76.55(0.48)
Localtax
-0.061(0.95)
Statetax
-1.006(0.40)
-1.004(0.37)
RSS
4.763e+7
4.843e+7
4.962e+7
5.038e+7
R2
0.349
0.338
0.322
0.312
Se
1.488e+6
1.424e+6
1.418e+6
1.399e+6
AIC
1.776e+6
1.634e+6
1.593e+6
1.538e+6
(1)检验模型A中的每一个回归系数在10%水平下是否为零(括号中的值为双边备择P-值)。
根据检验结果,你认为应该把变量保留在模型中还是去掉?
(2)在模型A中,在10%水平下检验联合假设Ho:
■:
i=0(i=1,5,6,7)。
说明被择假设,计算检验统计值,说明其在零假设条件下的分布,拒绝或接受零假设的标准。
说明你的结论。
(3)哪个模型是最优的”?
解释你的选择标准。
(4)说明最优模型中有哪些系数的符号是错误的”说明你的预期符号并解释原因。
确认其是否为正确符号。
参考答案
一、填空题
1.n濾0或至少nk+1);2.n》30或至少n》243.Y=x一:
u,y=xbe,b=(xx)」XY,2_1
Var(b)=;「u(XX)h;4.回归平方和;残差平方和;回归平方和与残差平方和之比。
5.3;
6.非线性;非线性;变量非线性而参数为线性。
二、问答题
1.答:
回归模型与一元线性回归模型的区别表现在如下几方面:
一是解释变量的个数
不同;二是模型的经典假设不同,多元线性回归模型比一元线性回归模型多了“解释变量之
间不存在线性相关关系”的假定;三是多元线性回归模型的参数估计式的表达更复杂。
2.答:
极大似然法(ML)是不同于OLS法的另一种模型参数估计方法。
ML方法需要
利用有关模型随机扰动项分布的知识构建似然函数,然后利用使似然函数最大的方法得出参
数估计。
其基本思路是确定观察到的样本数据最可能来自某个分布,该分布的参数值即为总
体参数的估计量。
3.答:
所谓拟合优度检验,指对样本回归直线与样本观测值之间拟合程度的检验。
如
果所有的观测值都落在回归线上,称为“完全拟合”。
这种情况很少发生。
一般情况下,总
会出现围绕在回归直线周围的正或负的残差。
通过对残差的分析,有助于衡量回归直线与样
本观察值的拟合程度。
反映回归模型拟合优劣的一个数量指标是样本可决系数R2,也称判
定系数。
另一个是对回归模型的F统计检验。
估计方程的目的常常不是为了获得高R2,而
是要得到可靠的参数估计,以便利用估计结果进行统计推断。
注意不要将判断系数作为评价
模型优劣的唯一标准。
4.答:
可能由于:
X不是Y的良好解释变量;模型形式设定有误。
一般地,利用时间序
列数据估计的模型R2值较高,而利用截面数据估计的模型R2值较低。
5.答:
R2的取值取决在0〜1之间。
若Y的全部变异都得到了解释,则R2=1,若解释变
量没有如何解释能力,有R2=0。
在模型中不包含常数项的情况下,R2的值可能超出0〜1
范围;是解释变量的非减函数,即增加解释变量不会降低R2,在大多数情况下,R2会增大。
在实际工作中,我们可以借助于R的增减,判断回归模型不同表达形式的优劣。
需要
注意的是,对于不同因变量的回归模型,比较R2的大小没有任何意义。
用同一变量的不同
数学表达式作为因变量,R2也是不可比的。
时间序列数据建模中如果考虑了滞后的行为反
应,导致样本区间发生变动,R2也不可比。
6.答:
回归模型的基本假定有:
零均值假定、随机项独立同方差假定、解释变量的非
随机性假定、解释变量之间不存在线性相关关系假定、随机误差项山服从均值为0方差为二
的正态分布假定。
在证明最小二乘估计量的无偏性中,利用了解释变量与随机误差项不相关
的假定;在有效性的证明中,禾U用了随机项独立同方差假定。
7.答:
区间估计是指研究用未知参数的点估计值(从一组样本观测值算得的)作为近似值的精确程度和误差范围。
三、实践题
2.解:
b2
74778.346280-4250.94796.0
_2
84855.096280「4796.0
550620
0.7266
757810
4250.984855.096-74778.3464796.0
84855.096280-4796.02
2073580
2.7363
7578i0
b0二丫一SXi-b2X2
=367.693-0.7266402.760-2.73638.0
=53.i572
22
2Zei送yi_bi^yiXii_b2瓦yiX2i
(2);「u
n_315_3
66042.269-0.726674778.346-2.73634250.9
—12
=6.3821
s(bo)=.Var(b°)
=J—x^cr*2■一15
=12.768
2222
其中:
X:
.二.x2i•X:
二.吃X1iX2i
b2的95%的臵信区间:
0.894公b2乞4.5784
2.179
⑷H0:
[=0(i=1,2,3),
:
-=5%,d.f.=15-3=12,查表得临界值为:
-2.179乞t<
则:
tb0二53.15720=4.0963■2.179,则拒绝原假设:
■:
0
12.9768
0.7266_0
tb114.9509.2.179,拒绝原假设:
睛=0
0.0486
tb2.7363-^3.2367.2.179,拒绝原假设:
鼻二。
0.8454
(5)方差分析表
方差来源
平方和
自由度
均方差
回归平方和
65963.018
2
32981.509
残差平方和
79.2507
12
6.6042
总平方和
66042.269
32981509
F4994.0203,-.=5%,d.f.=2,12,F临界值为3.89
6.6042
-F值是显著的,所以拒绝零假设。
5.解:
(1)预期sibs对劳动者受教育的年数有影响。
因此在收入及支出预算约束一定的条件下,子女越多的家庭,每个孩子接受教育的时间会越短。
根据多元回归模型偏回归系数的含义,sibs前的参数估计值-0.094表明,在其他条件不
变的情况下,每增加1个兄弟姐妹,受教育年数会减少0.094年,因此,要减少1年受教育的时间,兄弟姐妹需增加1/0.094=10.6个。
(2)medu的系数表示当兄弟姐妹数与父亲受教育的年数保持不变时,母亲每增加1
年受教育的机会,其子女作为劳动者就会预期增加0.131年的教育机会。
(3)首先计算两人受教育的年数分别为
10.36+0.13112+0.21012=14.452
10.36+0.13116+0.21016=15.816
因此,两人的受教育年限的差别为15.816-14.452=1.364
6.解:
(1)Iog(x1)的系数表明在其他条件不变时,Iog(x1)变化1个单位,Y变化的单
位数,即Y=0.32.:
log(X1):
0.32(.:
X1/X1)=0.32100%,换言之,当企业销售X1增长100%时,企业研发支出占销售额的比重Y会增加0.32个百分点。
由此,如果X1增加10%,Y
会增加0.032个百分点。
这在经济上不是一个较大的影响。
(2)针对备择假设已:
■-1■0,
检验原假设H0:
肾=0。
易知计算的t统计量的值为t=0.32/0.22=1.468。
在5%的显著性水
平下,自由度为32-3=29的t分布的临界值为1.699(单侧),计算的t值小于该临界值,所以不拒绝原假设。
意味着R&D强度不随销售额的增加而变化。
在10%的显著性水平下,t
分布的临界值为1.311,计算的t值小于该值,拒绝原假设,意味着R&D强度随销售额的
增加而增加。
7.解:
(1)直接给出了P-值,所以没有必要计算t-统计值以及查t分布表。
根据题意,如果p-值<0.10,则我们拒绝参数为零的原假设。
由于表中所有参数的P-值都超过了10%,所以没有系数是显著不为零的。
但由此去掉所有解释变量,则会得到非常奇怪的结果。
其实正如我们所知道的,多元回去归中在省略变量时一定要谨慎,要有所选择。
本例中,value、income、popchang的p值仅比0.1稍大一点,
在略掉unemp>localtax、statetax的模型C中,这些变量的系数都是显著的。
(2)针对联合假设Ho:
-=0(i=1,5,6,7)的备择假设为H1:
=0(i=1,5,6,7)
中至少有一个不为零。
检验假设H。
,实际上就是参数的约束性检验,非约束模型为模型A,
约束模型为模型D,检验统计值为
(RSSr—RSSu)/(ku-kR)(5.038e+7—4.763e+7)/(7—3)
F0.462
RSSu/(n—心-1)(4.763e7)/(40—8)
显然,在Ho假设下,上述统计量满足F分布,在10%的显著性水平下,自由度为(4,32)
的F分布的临界值位于2.09和2.14之间。
显然,计算的F值小于临界值,我们不能拒绝
Ho,所以](i=1,5,6,7)是联合不显著的。
(3)模型D中的3个解释变量全部通过显著性检验。
尽管R2与残差平方和较大,但相对
来说其AIC值最低,所以我们选择该模型为最优的模型。
(4)随着收入的增加,我们预期住房需要会随之增加。
所以可以预期爲>0,事实上其估计值确是大于零的。
同样地,随着人口的增加,住房需求也会随之增加,所以我们预期34>0事实其估计值也是如此。
随着房屋价格的上升,我们预期对住房的需求人数减少,即我们预期爲估计值的符号为负,回归结果与直觉相符。
出乎预料的是,地方税与州税为不显著的。
由于税收的增加将使可支配收入降低,所以我们预期住房的需求将下降。
虽然模型A是这
种情况,但它们的影响却非常微弱。
22.
二.X1i.二.x2i二x1ix2i.二.x1ix2i
同理,可得:
se(b1^0.0486,se(b2)=0.8454
2S'yix1ib2、yix2i
拟合优度为:
ry20.9988
22n-1
R1-(1-R)0.9986
n-k
⑶d.f.=12,a=5%,查表得P(t兰2.179)=0.95
-2.179<0.7266也<2.179,得到0.6207
27363-b2
-2.1792-2.179,得到0.8942_b2_4.5784
0.8454
b1的95%的臵信区间:
0.6207
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 线性 回归 模型