书签分享收藏举报版权申诉 / 94

立即下载加入VIP,免费下载

当前位置：首页 > 经管营销 > 经济市场 > 多元线性回归模型.pptx

多元线性回归模型.pptx

文档编号：30811110
上传时间：2024-01-30
格式：PPTX
页数：94
大小：743.38KB

多元线性回归模型.pptx

《多元线性回归模型.pptx》由会员分享，可在线阅读，更多相关《多元线性回归模型.pptx（94页珍藏版）》请在冰豆网上搜索。

多元线性回归模型.pptx

多元线性回归模型,简单线性回归模型的推广,1,第一节多元线性回归模型的概念在许多实际问题中，我们所研究的因变量的变动可能不仅与一个解释变量有关。

因此，有必要考虑线性模型的更一般形式，即多元线性回归模型：

t=1,2,n在这个模型中，Y由X1,X2,X3,XK所解释，有K+1个未知参数0、1、2、K。

这里，“斜率”j的含义是其它变量不变的情况下，Xj改变一个单位对因变量所产生的影响。

2,例1：

其中，Y=在食品上的总支出X=个人可支配收入P=食品价格指数用美国1959-1983年的数据，得到如下回归结果（括号中数字为标准误差）：

Y和X的计量单位为10亿美元（按1972不变价格计算）.,3,多元线性回归模型中斜率系数的含义上例中斜率系数的含义说明如下：

价格不变的情况下，个人可支配收入每上升10亿美元（1个billion），食品消费支出增加1.12亿元（0.112个billion）。

收入不变的情况下，价格指数每上升一个点，食品消费支出减少7.39亿元（0.739个billion）,4,例2：

其中，Ct=消费，Dt=居民可支配收入Lt=居民拥有的流动资产水平2的含义是，在流动资产不变的情况下，可支配收入变动一个单位对消费额的影响。

这是收入对消费额的直接影响。

收入变动对消费额的总影响=直接影响+间接影响。

（间接影响：

收入影响流动资产拥有量影响消费额）但在模型中这种间接影响应归因于流动资产，而不是收入，因而，2只包括收入的直接影响。

在下面的模型中：

这里，是可支配收入对消费额的总影响，显然和2的含义是不同的。

5,回到一般模型t=1,2,，n即对于n组观测值，有,6,其矩阵形式为：

其中,7,第二节多元线性回归模型的估计多元线性回归模型的估计与双变量线性模型类似，仍采用最小二乘法。

当然，计算要复杂得多，通常要借助计算机。

理论推导需借助矩阵代数。

下面给出最小二乘法应用于多元线性回归模型的假设条件、估计结果及所得到的估计量的性质。

一假设条件

（1）E（ut）=0,t=1,2,n

（2）E（uiuj）=0,ij（3）E（ut2）=2,t=1,2,n（4）Xjt是非随机量，j=1,2,kt=1,2,n,8,除上面4条外，在多个解释变量的情况下，还有两个条件需要满足：

（5）（K+1）n;即观测值的数目要大于待估计的参数的个数（要有足够数量的数据来拟合回归线）。

（6）各解释变量之间不存在严格的线性关系。

9,上述假设条件可用矩阵表示为以下四个条件：

（1）E（u）=0

（2）由于显然，仅当E（uiuj）=0,ijE（ut2）=2,t=1,2,n这两个条件成立时才成立，因此，此条件相当前面条件

（2）,（3）两条，即各期扰动项互不相关，并具有常数方差。

10,（3）X是是一个非随机元素矩阵。

（4）Rank（X）=（K+1）n.-相当于前面（5）、（6）两条即矩阵X的秩=（K+1）n当然，为了后面区间估计和假设检验的需要，还要加上一条：

（5），t=1,2,n,11,二最小二乘估计我们的模型是：

t=1,2,n问题是选择，使得残差平方和最小。

残差为：

12,要使残差平方和为最小，则应有：

我们得到如下K+1个方程（即正规方程）：

13,按矩阵形式，上述方程组可表示为：

14,=,即,15,上述结果，亦可从矩阵表示的模型出发，完全用矩阵代数推导出来。

残差可用矩阵表示为：

其中：

16,残差平方和,17,注意到上式中所有项都是标量，且故令用矩阵微分法，我们可得到与采用标量式推导所得结果相同。

由上述结果，我们有,18,三.最小二乘估计量的性质我们的模型为估计式为1的均值,19,（由假设3）（由假设1）,即这表明，OLS估计量是无偏估计量。

20,2的方差为求Var（），我们考虑这是一个（K+1）*（K+1）矩阵，其主对角线上元素即构成Var（），非主对角线元素是相应的协方差，如下所示：

21,下面推导此矩阵的计算公式.,22,由上一段的结果，我们有因此，,23,如前所述，我们得到的实际上不仅是的方差，而且是一个方差-协方差矩阵，为了反映这一事实，我们用下面的符号表示之：

展开就是：

24,32的估计与双变量线性模型相似，2的无偏估计量是这是因为我们在估计的过程中，失去了（K+1）个自由度。

4高斯-马尔科夫定理对于以及标准假设条件

（1）-（4），普通最小二乘估计量是最佳线性无偏估计量（BLUE）,25,我们已在上一段中证明了无偏性，下面证明线性和最小方差性。

证明的路子与双变量模型中类似，只不过这里我们采用矩阵和向量的形式。

由OLS估计量的公式可知,可表示为一个矩阵和应变量观测值向量的乘积：

其中是一个（K+1）*n非随机元素矩阵。

因而显然有是线性估计量。

26,现设为的任意一个线性无偏估计量，即其中是一个（K+1）*n非随机元素矩阵。

则显然，若要为无偏估计量，即，只有，为（K+1）阶单位矩阵。

27,的方差为：

我们可将写成从而将的任意线性无偏估计量与OLS估计量联系起来。

28,由可推出：

即因而有由从而，因此上式中间两项为0，我们有,29,因此最后的不等号成立是因为为半正定矩阵。

这就证明了OLS估计量是的所有线性无偏估计量中方差最小的。

至此，我们证明了高斯-马尔科夫定理。

30,第三节拟合优度一决定系数R2对于双变量线性模型Y=+X+u我们有其中，=残差平方和,31,对于多元线性模型我们可用同样的方法定义决定系数：

为方便计算，我们也可以用矩阵形式表示R2,32,我们有：

残差，其中，残差平方和：

33,而将上述结果代入R2的公式，得到：

这就是决定系数R2的矩阵形式。

34,二修正决定系数：

残差平方和的一个特点是，每当模型增加一个解释变量，并用改变后的模型重新进行估计，残差平方和的值会减小。

由此可以推论，决定系数是一个与解释变量的个数有关的量：

解释变量个数增加减小R2增大也就是说，人们总是可以通过增加模型中解释变量的方法来增大R2的值。

因此，用R2来作为拟合优度的测度，不是十分令人满意的。

为此，我们定义修正决定系数（Adjusted）如下：

35,是经过自由度调整的决定系数，称为修正决定系数。

我们有：

（1）

（2）仅当K=0时，等号成立。

即（3）当K增大时，二者的差异也随之增大。

（4）可能出现负值。

36,三例子下面我们给出两个简单的数值例子，以帮助理解这两节的内容.例1Yt=1+2X2t+3X3t+ut设观测数据为：

Y：

31835X2：

31524X3：

54646试求各参数的OLS估计值，以及。

解：

我们有,37,38,39,40,41,例2.设n=20,k=3,R2=0.70求。

解：

下面改变n的值，看一看的值如何变化。

我们有若n=10，则=0.55若n=5，则=-0.20由本例可看出，有可能为负值。

这与R2不同（）。

42,第四节非线性关系的处理迄今为止，我们已解决了线性模型的估计问题。

但在实际问题中，变量间的关系并非总是线性关系，经济变量间的非线性关系比比皆是。

如大家所熟悉的柯布-道格拉斯生产函数:

就是一例。

在这样一些非线性关系中，有些可以通过代数变换变为线性关系处理，另一些则不能。

下面我们通过一些例子来讨论这个问题。

43,一.线性模型的含义线性模型的基本形式是:

其特点是可以写成每一个解释变量和一个系数相乘的形式。

线性模型的线性包含两重含义：

（1）变量的线性变量以其原型出现在模型之中，而不是以X2或X之类的函数形式出现在模型中。

（2）参数的线性因变量Y是各参数的线性函数。

44,二线性化方法对于线性回归分析，只有第二种类型的线性才是重要的，因为变量的非线性可通过适当的重新定义来解决。

例如，对于此方程的变量和参数都是线性的。

如果原方程的扰动项满足高斯马尔可夫定理条件，重写的方程的扰动项也将满足。

45,参数的非线性是一个严重得多的问题，因为它不能仅凭重定义来处理。

可是，如果模型的右端由一系列的X或eX项相乘，并且扰动项也是乘积形式的，则该模型可通过两边取对数线性化。

例如，需求函数其中，Y=对某商品的需求X=收入P=相对价格指数=扰动项可转换为：

46,用X,Y,P的数据，我们可得到logY,logX和logP,从而可以用OLS法估计上式。

logX的系数是的估计值，经济含义是需求的收入弹性，logP的系数将是的估计值，即需求的价格弹性。

注释弹性（elasticity）：

一变量变动1%所引起的另一变量变动的百分比：

需求的收入弹性：

收入变化1%，价格不变时，所引起的商品需求量变动的百分比。

需求的价格弹性：

价格变化1%，收入不变时，所引起的商品需求量变动的百分比。

47,三例子例1需求函数本章1中，我们曾给出一个食品支出为因变量，个人可支配收入和食品价格指数为解释变量的线性回归模型例子。

现用这三个变量的对数重新估计（采用同样的数据），得到如下结果（括号内数字为标准误差）：

回归结果表明，需求的收入弹性是0.64,需求的价格弹性是0.48，这两个系数都显著异于0。

48,例2柯布-道格拉斯生产函数生产函数是一个生产过程中的投入及其产出之间的一种关系。

著名的柯布-道格拉斯生产函数（C-D函数）为用柯布和道格拉斯最初使用的数据（美国1899-1922年制造业数据）估计经过线性变换的模型得到如下结果（括号内数字为标准误差）：

从上述结果可以看出，产出的资本弹性是0.23，产出的劳动弹性为0.81。

49,例3货币需求量与利率之间的关系,M=a（r-2）b这里，变量非线性和参数非线性并存。

对此方程采用对数变换logM=loga+blog（r-2）,令Y=logM,X=log（r-2）,1=loga,2=b则变换后的模型为：

Yt=1+2Xt+ut,50,将OLS法应用于此模型，可求得1和2的估计值从而可通过下列两式求出a和b估计值：

应当指出，在这种情况下，线性模型估计量的性质（如BLUE,正态性等）只适用于变换后的参数估计量，而不一定适用于原模型参数的估计量和。

51,例4上例在确定货币需求量的关系式时，我们实际上给模型加进了一个结束条件。

根据理论假设，在某一利率水平上，货币需求量在理论上是无穷大。

我们假定这个利率水平为2%。

假如不给这一约束条件，而是从给定的数据中估计该利率水平的值，则模型变为：

M=a（r-c）b式中a,b,c均为参数。

仍采用对数变换，得到log（Mt）=loga+blog（rt-c）+utt=1,2,n我们无法将log（rt-c）定义为一个可观测的变量X,因为这里有一个未知量c。

也就是说，此模型无法线性化。

在这种情况下，只能用估计非线性模型参数值的方法。

52,四非线性回归模型Y=a（X-c）b是一个非线性模型，a、b和c是要估计的参数。

此模型无法用取对数的方法线性化，只能用非线性回归技术进行估计，如非线性最小二乘法（NLS）。

该方法的原则仍然是残差平方和最小。

计量经济软件包通常提供这类方法，这里给出有关非线性回归方法的大致步骤如下：

53,非线性回归方法的步骤1首先给出各参数的初始估计值（合理猜测值）;2用这些参数值和X观测值数据计算Y的各期预测值（拟合值）;3计算各期残差，然后计算残差平方和e2;4对一个或多个参数的估计值作微小变动；5计算新的Y预测值、残差平方和e2；6若新的e2小于老的e2，说明新参数估计值优于老估计值，则以它们作为新起点；7重复步骤4，5，6，直至无法减小e2为止。

8最后的参数估计值即为最小二乘估计值。

54,第五节假设检验一系数的显著性检验1单个系数显著性检验目的是检验某个解释变量的系数j是否为0，即该解释变量是否对因变量有影响。

原假设：

H0：

j=0备择假设：

H1：

j0检验统计量是自由度为n-K-1的t统计量：

t（n-K-1）,55,单个系数显著性检验的检验统计量是自由度为n-K-1的t统计量：

t（n-K-1）其中，为矩阵主对角线上第j+1个元素。

而,56,例：

柯布-道格拉斯生产函数用柯布和道格拉斯最初使用的数据（美国1899-1922年制造业数据）估计经过线性变换的模型得到如下结果（括号内数字为标准误差）：

请检验“斜率”系数和的显著性。

解：

（1）检验的显著性原假设：

H0：

=0备择假设：

H1：

0,57,由回归结果，我们有：

t0.23/0.06=3.83用=24321查t表，5%显著性水平下，tc2.08.t3.83tc2.08，故拒绝原假设H0。

结论：

显著异于0。

（2）检验的显著性原假设：

H0：

=0备择假设：

H1：

0由回归结果，我们有：

t0.81/0.15=5.4t5.4tc2.08，故拒绝原假设H0。

结论：

显著异于0。

58,2若干个系数的显著性检验（联合假设检验）有时需要同时检验若干个系数是否为0，这可以通过建立单一的原假设来进行。

设要检验g个系数是否为0，即与之相对应的g个解释变量对因变量是否有影响。

不失一般性，可设原假设和备择假设为：

H0:

1=2=g=0H1:

H0不成立（即X1,Xg中某些变量对Y有影响）,59,分析：

这实际上相当于检验g个约束条件1=0，2=0，g=0是否同时成立。

若H0为真，则正确的模型是：

据此进行回归（有约束回归），得到残差平方和SR是H0为真时的残差平方和。

若H1为真，正确的模型即原模型：

60,据此进行无约束回归（全回归），得到残差平方和S是H1为真时的残差平方和。

如果H0为真，则不管X1,Xg这g个变量是否包括在模型中，所得到的结果不会有显著差别，因此应该有：

SSR如果H1为真，则由上一节中所讨论的残差平方和e2的特点，无约束回归增加了变量的个数，应有SSR通过检验二者差异是否显著地大，就能检验原假设是否成立。

61,所使用的检验统计量是：

F（g,n-K-1）其中，g为分子自由度，n-K-1为分母自由度。

使用的作用是消除具体问题中度量单位的影响，使计算出的F值是一个与度量单位无关的量。

62,例：

给定20组Y,X1,X2,X3的观测值，试检验模型中X1和X3对Y是否有影响？

解：

（1）全回归估计得到：

S=e2=25

（2）有约束回归估计得到：

SR=e2=30,63,原假设H0:

1=3=0备择假设H1:

H0不成立我们有：

n=20,g=2,K=3用自由度（2，16）查F分布表，5%显著性水平下，FC=3.63F=1.6FC=3.63,故接受H0。

结论：

X1和X3对Y无显著影响,64,3全部斜率系数为0的检验上一段结果的一个特例是所有斜率系数均为0的检验，即回归方程的显著性检验：

H0：

1=2=K=0也就是说，所有解释变量对Y均无影响。

注意到g=K，则该检验的检验统计量为：

65,分子分母均除以，有从上式不难看出，全部斜率为0的检验实际是检验R2的值是否显著异于0，如果接受原假设，则表明因变量的行为完全归因于随机变化。

若拒绝原假设，则表明所选择模型对因变量的行为能够提供某种程度的解释。

66,二检验其他形式的系数约束条件上面所介绍的检验若干个系数显著性的方法，也可以应用于检验施加于系数的其他形式的约束条件，如检验的方法仍是分别进行有约束回归和无约束回归，求出各自的残差平方和SR和S，然后用F统计量进行检验。

当然，单个系数的假设检验，如H0：

3=1.0，亦可用t检验统计量进行检验。

67,例：

Cobb-Douglas生产函数Y=AKL试根据美国制造业1899-1922年数据检验规模效益不变的约束：

+=1解：

（1）全回归

（2）有约束回归：

将约束条件代入，要回归的模型变为：

Y=AKL1-为避免回归系数的不一致问题，两边除以L，模型变换为：

Y/L=A（K/L）,68,回归，得：

由软件包可得到约束回归和全回归的残差平方和分别为SR=0.0716S=0.0710（3）检验原假设H0:

+1备择假设H1:

+1本例中，g=1,K=2,n=24,69,用自由度（1，21）查F表，5%显著性水平下，Fc=4.32F=0.18Fc=4.32故接受原假设H0:

+1（4）结论我们的数据支持规模收益不变的假设。

70,第六节预测我们用OLS法对多元回归模型的参数进行了估计之后，如果结果理想，则可用估计好的模型进行预测。

与双变量模型的作法类似，预测指的是对各自变量的某一组具体值来预测与之相对应的因变量值。

当然，要进行预测，有一个假设前提应当满足，即拟合的模型在预测期也成立。

点预测值由与给定的诸X值对应的回归值给出，即而预测期的实际Y值由下式给出：

其中u0是从预测期的扰动项分布中所取的值。

71,预测误差可定义为：

两边取期望值，得因此，OLS预测量是一个无偏预测量。

72,预测误差的方差为：

从的定义可看出，为正态变量的线性函数，因此，它本身也服从正态分布。

故,73,由于为未知，我们用其估计值代替它，有则的95%置信区间为：

（其中，）,74,例用书上P79例4.3的数据，预测X2=10，X3=10的Y值。

解：

由例4.3我们已得到：

因此的95%置信区间为：

或3.66至23.65之间.,75,第七节虚拟变量（Dummyvariables）一虚拟变量的概念在回归分析中，常常碰到这样一种情况，即因变量的波动不仅依赖于那种能够很容易按某种尺度定量化的变量（如收入、产出、价格、身高、体重等），而且依赖于某些定性的变量（如性别、地区、季节）。

在经济系统中，许多变动是不能定量的。

如政府的更迭（工党-保守党）、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。

这样一些变动都可以用大家所熟悉的0-1变量来表示，用1表示具有某一“品质”或属性，用0表示不具有该“品质”或属性。

这种变量在计量经济学中称为“虚拟变量”。

虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。

下面给出几个可以引入虚拟变量的例子。

76,例1：

你在研究学历和收入之间的关系，在你的样本中，既有女性又有男性，你打算研究在此关系中，性别是否会导致差别。

例2：

你在研究某省家庭收入和支出的关系，采集的样本中既包括农村家庭，又包括城镇家庭，你打算研究二者的差别。

例3：

你在研究通货膨胀的决定因素，在你的观测期中，有些年份政府实行了一项收入政策。

你想检验该政策是否对通货膨胀产生影响。

上述各例都可以用两种方法来解决，一种解决方法是分别进行两类情况的回归，然后看参数是否不同。

另一种方法是用全部观测值作单一回归，将定性因素的影响用虚拟变量引入模型。

77,二虚拟变量的使用方法1截距变动设Y表示消费，X表示收入，我们有：

假定不变。

对于5年战争和5年和平时期的数据，我们可分别估计上述两个模型，一般将给出的不同值。

现引入虚拟变量D,将两式并为一式：

其中，,78,此式等价于下列两式：

截距变动，斜率不变在包含虚拟变量的模型中，D的数据为0，0，0，0，0，1，1，1，1，1。

估计结果如下图所示：

应用t检验，2是否显著可以表明截距项在两个时期是否有变化。

79,2斜率变动如果我们认为战时和平时的消费函数中，截距项不变，而斜率不同，即变动，则可用下面的模型来研究两个时期边际消费倾向的差异：

其中，D=不难看出，上式相当于下列两式：

同样，包括虚拟变量的模型中，2是否显著可以表明斜率在两个时期是否变化。

80,3斜率和截距都变动在这种情况下，模型可设为：

其中，D=此式等价于下列两个单独的回归式：

引进了虚拟变量的回归模型对于检验两个时期中是否发生结构性变化很方便。

如上例中，相当于检验H0:

2=4=0,81,4季节虚拟变量的使用许多变量展示出季节性的变异（如商品零售额、电和天然气的消费等），我们在建立模型时应考虑这一点，这有两种方法：

（1）在估计前对数据进行季节调整；

（2）采用虚拟变量将季节性差异反映在模型中。

例：

设Y=购买汽车的实际支出额X=实际总消费支出用美国1973

（1）-1980

（2）的季度数据（按1975年价格计算），得回归结果如下：

82,这一结果很不理想，低R2值，低t值，X的符号也不对。

考虑到可能是季节性变异的问题，我们建立下面的模型：

其中，Q1=Q2=Q3=请注意我们仅用了3个虚拟变量就可表示4个季度的情况。

各季度的截距分别为：

1季度：

0+12季度：

0+23季度：

0+34季度：

0,83,估计结果如下：

结果仍不理想，但好多了。

四个季度的截距项分别为：

-1039.2，-1122.7，-1161.4，-1455.8。

所得到的实际总支出的参数估计值（0.1044）是一个不受季节变动影响的估计值。

84,第四章小结本章将双变量模型的结果推广到了多元线性回归模型的一般情形。

一、多元线性回归模型的估计多元线性回归模型的矩阵形式为Y=X+若满足以下四条假设条件：

1、E（）=02、E（）=2In3、X是一个非随机元素矩阵4、Rank（X）=k+1n则OLS估计量=（XX）-1XY为最佳线性无偏估计量（BLUE）。

其方差-协方差矩阵为Var-cov（）=（XX）-12该矩阵主对角线元素为诸的方差。

85,二、拟合优度多元线性回归模型的决定系数为：

R2=由于当模型增加解释变量后，残差平方和的值会减小，为了使拟合优度的测度反映这一特点，可采用经过自由度调整的决定系数，即修正决定系数：

86,三、非线性关系的处理线性模型的含义包括变量的线性和参数的线性。

对于仅存在变量非线性的模型，可采用重新定义的方法将模型线性化。

存在参数非线性的模型，则仅有一部分可通过代数变换（主要是取对数）的方法将模型线性化。

对于那些无法线性化的模型，只能采用非线性估计技术（如NLS法）估计模型。

87,四、假设检验检验解释变量的系数是否为0的假设检验称为系数的显著性检验。

这种检验实际上是检验所涉及的解释变量是否对因变量有影响。

检验单个系数j是否为0的检验统计量t（n-k-1）其中Var（）为矩阵主对角线上第j+1个元素，而n和k分别是观测值数目和解释变量的个数。

88,涉及几个参数的联合假设检验的检验统计量F=F（g，n-k-1）其中SR为有约束回归的残差平方和，S为无约束回归（全回归）的残差平方和。

g为原假设中约束条件个数，（对于涉及几个参数的显著性检验，g为原假设中为0参数的个数）。

检验全部“斜率”系数均为0的检验统计量为F=,89,五、虚拟变量我们应用虚拟变量的目的是将那些无法定量化的变量引入到模型中。

这样，一些定性因素对因变量的影响，如不同时期、不同地区、不同季节、不同经济政策的影响等，可放在一个模型中予以考虑。

90,第四章习题1、某经济学家试图解释某一变量Y的变动。

他收集了Y和5个可能的解释变量X1X5的观测值（共10组），然后分别作三个回归，结果如下（括号中为t统计量）：

（1）=51.5+3.21X1tR2=0.63（3.45）（5.21）

（2）=33.43+3.67X1t+4.62X2t+1.21X3tR2=0.75（3.61）（2.56）（0.81）（0.22）（3）=23.21+3.82X1t+2.32X2t+0.82X3t+4.10X4t+1.21X5t（2.21）（2.83）（0.62）（0.12）（2.10）（1.11）R2=0.80你认为应采用哪一个结果？

为什么？

91,2、为研究旅馆的投资问题，我们收集了某地的1987-1995年的数据来估计收益生产函数R=ALKeu其中R=旅馆年净收益（万元），L=土地投入，K=资金投入，e为自然对数的底。

设回归结果如下（括号内数字为标准误差）：

=-0.9175+0.273lnL+0.733lnKR2=0.94（0.212）（0.135）（0.125）

（1）请对回归结果作必要说明；

（2）分别检验和的显著性；（3）检验原假设：

=0；,92,3、我们有某地1970-1987年间人均储蓄和收入的数据，用以研究文革期间和文革后储蓄和收入之间的关系是否发生显著变化。

引入虚拟变量后，估计结果如下（括号内数据为标准差）：

=-1.7502+1.4839D+0.1504Xt-0.1034DXt