第3讲多元回归分析PPT文档格式.pptx
- 文档编号:15417846
- 上传时间:2022-10-30
- 格式:PPTX
- 页数:59
- 大小:580.12KB
第3讲多元回归分析PPT文档格式.pptx
《第3讲多元回归分析PPT文档格式.pptx》由会员分享,可在线阅读,更多相关《第3讲多元回归分析PPT文档格式.pptx(59页珍藏版)》请在冰豆网上搜索。
二、使用多元回归的动因二、使用多元回归的动因在实证工作中使用简单回归模型的主要缺陷在实证工作中使用简单回归模型的主要缺陷是:
在其它条件是:
在其它条件不变情况假定下我们估计出的不变情况假定下我们估计出的x对对y的影响值是否可信依赖,完全的影响值是否可信依赖,完全取决于零条件均值假设是否现实。
而在仅含有一个解释变量的情取决于零条件均值假设是否现实。
而在仅含有一个解释变量的情况下,误差项和解释变量不相关的假设很难实现,因此要得况下,误差项和解释变量不相关的假设很难实现,因此要得到在到在其它条件不变的情况下其它条件不变的情况下x对对y的影响非常困难。
的影响非常困难。
而多元回归分析允许我们明确地控制许多其它也同时影而多元回归分析允许我们明确地控制许多其它也同时影响因变量的因素,因而更适合于其它条件不变情况下的分析。
响因变量的因素,因而更适合于其它条件不变情况下的分析。
总的说来,相对于简单回归分析而言,多元回总的说来,相对于简单回归分析而言,多元回归分析具备以下优势:
归分析具备以下优势:
u多元回归分析控制了除关键解释变量之外的更多变量,更适合多元回归分析控制了除关键解释变量之外的更多变量,更适合于于其他条件不变其他条件不变情况下的分析。
情况下的分析。
u多元回归分析能够容纳更多解释变量,因而在推断变量之间的多元回归分析能够容纳更多解释变量,因而在推断变量之间的因果关系、对被解释变量进行预测时的效果会更好。
因果关系、对被解释变量进行预测时的效果会更好。
u多元回归分析可以表现为更一般的函数形式。
多元回归分析可以表现为更一般的函数形式。
u多元回归分析是经验分析中最广泛使用的工具。
多元回归分析是经验分析中最广泛使用的工具。
以例以例2.4为例:
为例:
wage:
小时工资(美元);
:
edu:
受教育年数(年);
exper:
工作经历(年),工作经历(年),被解释变量采用对数形式被解释变量采用对数形式在没有控制工作经历的情况下,斜率系数意味着每增加一年在没有控制工作经历的情况下,斜率系数意味着每增加一年教育,可以带来收入增加教育,可以带来收入增加8.27%。
事实上,误差项中的工作经历。
事实上,误差项中的工作经历不仅影响被解释变量,也和劳动者的受教育年限相关。
不仅影响被解释变量,也和劳动者的受教育年限相关。
控制工作经历之后:
很显然,控制工作经历之后,工作经历的系数显著为正,这说很显然,控制工作经历之后,工作经历的系数显著为正,这说明工作经历对个人收入确实存在正向影响;
且受教育年限的系数显明工作经历对个人收入确实存在正向影响;
且受教育年限的系数显著变大,说明工作经历还和受教育程度可能反向变动的关系。
受教著变大,说明工作经历还和受教育程度可能反向变动的关系。
受教育年限的系数意味着在工作年限相同的情况下,多接受一年教育可育年限的系数意味着在工作年限相同的情况下,多接受一年教育可以带来收入增加以带来收入增加9.79%。
模型的拟合程度也有提高,说明控制工作。
模型的拟合程度也有提高,说明控制工作经历之后,模型对个人收入变动有更强的解释力。
经历之后,模型对个人收入变动有更强的解释力。
多元线性回归中,变量之间存在非线性关系并不少见,多元线性回归中,变量之间存在非线性关系并不少见,上例中引入工作经历的二次项:
上例中引入工作经历的二次项:
工作经历的二次项系数显著为负,模型本身的拟合程度也有所工作经历的二次项系数显著为负,模型本身的拟合程度也有所上升,但此时工作经验的系数不能再解释为上升,但此时工作经验的系数不能再解释为“受教育程度相同受教育程度相同”以以及及“工作经历平方项相同工作经历平方项相同”时时,工作经历增加一年对收入水平的影,工作经历增加一年对收入水平的影响,那么在这样的模型中,各参数应该怎么解释?
响,那么在这样的模型中,各参数应该怎么解释?
第二节OLS的操作和解释一、参数估计的任务一、参数估计的任务二、参数估计的方法二、参数估计的方法u普通最小二乘估计(普通最小二乘估计(OLS)u极大似然估计(极大似然估计(ML)对于随机抽取的对于随机抽取的n组观测值组观测值根据根据最小二乘原理最小二乘原理,参数估计值应该是下列方程组的解,参数估计值应该是下列方程组的解:
三、如何得到三、如何得到OLS估计值估计值于是得到关于待估参数估计值的于是得到关于待估参数估计值的正规方程组正规方程组:
这个方程组通常被称为这个方程组通常被称为OLSOLS一阶条件,解该(一阶条件,解该(K+1K+1)个方)个方程组成的线性代数方程组,即可得到(程组成的线性代数方程组,即可得到(K+1K+1)个待估参)个待估参数的估计值数的估计值i=1,2n在估计之后,我们得到在估计之后,我们得到OLS回归线,或称为样本回归方回归线,或称为样本回归方程(程(SRF)正规方程组正规方程组的的矩阵矩阵形式:
形式:
即:
由于由于XX满秩,故满秩,故有:
有:
最简单的多元线性回归模型是二元线性回归模型,其一最简单的多元线性回归模型是二元线性回归模型,其一般形式为:
般形式为:
四、对多元回归的解释四、对多元回归的解释所以,保持所以,保持不变意味不变意味着:
着:
也就是说,每个偏回归系数也就是说,每个偏回归系数都有一个局部效应,都有一个局部效应,或者其他情况不变效应解释。
或者其他情况不变效应解释。
具体而言,具体而言,表示其他条件不变时,表示其他条件不变时,每增每增加一个单位,加一个单位,平均增加平均增加个单位;
个单位;
表示其他条件不变时,表示其他条件不变时,每增加一个单位,每增加一个单位,平均增加平均增加个单位。
个单位。
例例3.1:
大学:
大学GPA的决定因素的决定因素(GPA1.RAW)colGPA:
大学平均成绩;
hsGPA:
高中平均成绩;
ACT:
大学能力测验分数大学能力测验分数见教材见教材P74剔出不显著的解释变量剔出不显著的解释变量ACT再进行回归,结果如下:
再进行回归,结果如下:
如果只考虑如果只考虑colGPA和和ACT联系的简单回归,则有:
联系的简单回归,则有:
ACT的系数估计值是第一次回归时的的系数估计值是第一次回归时的3倍大,如果这两个回归都倍大,如果这两个回归都是对的,它们可以被认为是两个不同实验的结果。
是对的,它们可以被认为是两个不同实验的结果。
五、五、“保持其他因素不变保持其他因素不变”的含义的含义多元回归分析使我们能在非实验环境中去做自多元回归分析使我们能在非实验环境中去做自然科学家在受控实验中所能做的事情:
保持其它因素不然科学家在受控实验中所能做的事情:
保持其它因素不变。
变。
六、六、OLS的拟合值和残差的性质的拟合值和残差的性质u残差项的样本平均值为零;
残差项的样本平均值为零;
u每个自变量和每个自变量和OLS残差之间的样本协方差为零;
残差之间的样本协方差为零;
uOLS回归线总是通过样本均值的组合点。
回归线总是通过样本均值的组合点。
考虑回归线考虑回归线的一种表达是:
的一种表达是:
七、对七、对“排除其它变量影响排除其它变量影响”的解释的解释是将是将X1对对X2进行回归后得到的残差,然后,将进行回归后得到的残差,然后,将y向向进进行简单回归得到行简单回归得到。
这意味着只有这意味着只有x1中与中与x2不相关的部分与不相关的部分与y有关,所以在有关,所以在x2被被“排排除影响除影响”之后,我们再估计之后,我们再估计x1对对y的影响。
因此,将的影响。
因此,将y同时对同时对x1和和x2回归得出的回归得出的x1的影响与先将的影响与先将x1对对x2回归得到残差,再将回归得到残差,再将y对此残差回对此残差回归得到的归得到的x1的影响相同。
的影响相同。
在一个含有在一个含有k个解释变量的一般模型中,个解释变量的一般模型中,仍然可以写成:
仍然可以写成:
但残差但残差来自来自x1对对x2,xk的回归。
的回归。
于是于是度量了在排除度量了在排除x2,xk等变量的影响之后,等变量的影响之后,x1对对y的影响的影响由此可见,如果由此可见,如果x2,xk等变量对被解释变量等变量对被解释变量y的影响等于零,或者的影响等于零,或者x2,xk等变量与变量均不相关,等变量与变量均不相关,那么将那么将y同时对同时对x1和和x2,xk等变量进行多元回归得出的等变量进行多元回归得出的x1的系数估计值,与将的系数估计值,与将y仅对仅对x1进行简单回归得到的系数进行简单回归得到的系数估计值相同。
估计值相同。
仍举例仍举例3.1:
大学GPA的决定因素的决定因素多元回归结果:
多元回归结果:
简单回归结果:
两次回归中,两次回归中,hsGPA的系数差别不大,原因在于:
的系数差别不大,原因在于:
uACT对对colGPA的影响原本就不显著;
的影响原本就不显著;
uACT和和hsGPA的相关程度较低。
的相关程度较低。
第三节OLS估计量的期望值我们现在转向我们现在转向OLS的统计特性,统计性质是估计量的统计特性,统计性质是估计量在随机抽样不断重复时的性质。
在随机抽样不断重复时的性质。
OLS是估计潜在的总体是估计潜在的总体模型参数的,因此,我们并不关心在某一特定样本中估模型参数的,因此,我们并不关心在某一特定样本中估计量如何。
计量如何。
u假定假定MLR.1(对参数而言为线性)(对参数而言为线性)模型只是参数的线性函数,对变量之间的关系并不模型只是参数的线性函数,对变量之间的关系并不进行线性要求。
进行线性要求。
u假定假定MLR.2(随机抽样性)(随机抽样性)u假定假定MLR.3(不存在完全共线性)(不存在完全共线性)样样本本中中没没有有一一个个自自变变量量是是常常数数,自自变变量量之之间间也也不不存存在在严严格格的的线线性性关关系系。
当当一一个个自自变变量量是是其其它它解解释释变变量量的的严严格格线线性性组组合合时时,我我们说此模型有完全共线性。
们说此模型有完全共线性。
该假定允许自变量之间存在相关关系,只是不能完全相关。
完全共线性的例子:
uy=bb0+bb1x1+bb2x2+bb3x3+u,x2=3x3,uy=bb0+bb1log(inc)+bb2log(inc2)+uuy=bb0+bb1x1+bb2x2+bb3x3+bb4x4+u,x1+x2+x3+x4=1.u当当y=bb0+bb1x1+bb2x2+bbkxk+u,n0Corr(x1,x2)0偏误为正偏误为负21,所以调整过的,所以调整过的R2总比总比R2小小u加入一个解释变量有两个相反的效果:
加入一个解释变量有两个相反的效果:
(1)SSR降低导致调整过的降低导致调整过的R2增加;
增加;
(2)(n-1)/(n-k-1)增加导致调整过的增加导致调整过的R2降低降低u调整过的调整过的R2可能是负的,发生在以下情况:
可能是负的,发生在以下情况:
所有解释变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 回归 分析