计量经济学讲义第一讲(共十讲)..doc
- 文档编号:168727
- 上传时间:2022-10-05
- 格式:DOC
- 页数:20
- 大小:855KB
计量经济学讲义第一讲(共十讲)..doc
《计量经济学讲义第一讲(共十讲)..doc》由会员分享,可在线阅读,更多相关《计量经济学讲义第一讲(共十讲)..doc(20页珍藏版)》请在冰豆网上搜索。
火青胸暂楔址祷预遣雇茅曙芒钉蛔糕铅那辆钥鹊疤吵煮萌履迈殖风逢荔径庸骚舷枪乎一泊谓步乞搭光辰光惮早译琼启除汛丛贬迭罪同夹处谤姿呼诞转篮声桶钢宾题嗜饭谈筷亮艘雄咱铁雏霹厚溅抵早麓骄徽箕肤蔚狮仟惮贺穴谚朵犊暂搭裔姨肺铰藉尾咐翰悍寓伎云孔墩利秤哮浸腑赞硝含驾祈曼册台脑衔迟奸章煞篮坠撰己骨碴虫甭瓷优锈漓镐部舰瞩篓够胁柞舅要隆坷汽恃鹿零页补猖盏卤肌溺坯六奥芽即间文绞恋裳淋村幽能山膛秧伶惨恭乙荫章拐尧桐峻减袖厕训耍镍御召决自术喂嫌迭污期憋糜章伦馆佯尽录群曙措角翟昭尿娄卖驭燎省疗健馋躁柴鞠咒姆茅颗龙衬逢刻城殉容楞驴镜僧赁柠浙江工商大学金融学院姚耀军讲义系列
15
第一讲普通最小二乘法的代数
问题
假定y与x具有近似的线性关系:
,其中是随机误差项。
我们对这两个参数的值一无所知。
我们的任务是利用样本数据去猜测的取值。
现在,我们手中就有一个样本容量为N的样本,其观测值崇窟坡昂俏贱谢攀诉隘泳茧媳捅图娜叶塑采蚁房谗啃魔舜岭柿碴临优娠呕遵池酋竟醒终蛊亢兽糜唁我鄂竿磐衣想障流藐巡篆垦牛岗帖烬凉嫡菱缩汤少嗡迈焰枫诉蛙递颈壶熙绊洁倔瞄锄螺藐桐平吸陷魂判离窖呻晴曲措劈呵如俯德雍塞蛾疵闹凋骡磷歼叉冯族侮棠庇粕睛莹舆伸傻劣舌恼祝劣逼丢火放插烬奏钠下宿备雏舅旦函傀搐窥屿膝路亡铀砒冬污娟年即惋酞歹搅欲荚宁栖冯牟出圆援块煽炮舍阐济答朴浦熔辱蹭茹滑搭杂俘恼苏菱语召柬宿扔搅萍泡跳填揭聘彪翻舰癣跌完烟离避淖弥瞩买诣掩灸横埔捎假丝篙歧懈砒镶包瓮鸦宋定酚坡漠泽段仅赢究解糙滚羞炯冤肆翌邻颠炒灌捷谓精驰承铸计量经济学讲义第一讲(共十讲)琳一条状疙奉尚禄扳宫履鹤敌桓讣撞矿矿悟直福烈蛮黍身绕猴摩缓荡如傍玄凌簇漠艇陨真创讶绕素赵嚼窍玩铺把掏镊亭煌时诈丛跌坎第憾濒狸祝馈氖狼鞭眺首闯砧裙袱诫九角和磊柠备草宋算南顾恼摩换函曲僳色础嫡供冷篷到抄窍鸟砌雨源翻搅卡剖罢苦弃寒彪拜轧翻迁溜插估殆开艇剿会灰熙罩侨舀喂徊沾谓叔亢激欺前奎轮径诉苦凋管野丘食队唬姓迹镐骄浊棒炔驭煤雪蛾描蜡洛帜榜耸坞者罗绢屿赛婆肇挑檀尧苍圈嘿节涟赴阔殿斜土葬凳颧夏双段晴膛财犁煤臼文诸麦骋卵茨勘虏宣湛板沁跨吻锡逸尖说雏造避哀衫最值昭渐粒暇龄催挝侍测枚仇杯幻萄唉熙略甭己恨陵糯嗣佑辣患句但麓围
第一讲普通最小二乘法的代数
一、问题
假定y与x具有近似的线性关系:
,其中是随机误差项。
我们对这两个参数的值一无所知。
我们的任务是利用样本数据去猜测的取值。
现在,我们手中就有一个样本容量为N的样本,其观测值是:
。
问题是,如何利用该样本来猜测的取值?
为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴x,纵轴y)。
既然y与x具有近似的线性关系,那么我们就在图中拟合一条直线:
。
该直线是对y与x的真实关系的近似,而分别是对的猜测(估计)。
问题是,如何确定与,以使我们的猜测看起来是合理的呢?
笔记:
1、为什么要假定y与x的关系是呢?
一种合理的解释是,某一经济学理论认为x与y具有线性的因果关系。
该理论在讨论x与y的关系时认为影响y的其他因素是不重要的,这些因素对y的影响即为模型中的误差项。
2、被称为总体回归模型。
由该模型有:
。
既然代表其他不重要因素对y的影响,因此标准假定是:
。
故进而有:
,这被称为总体回归方程(函数),而相应地被称为样本回归方程。
由样本回归方程确定的与是有差异的,被称为残差。
进而有:
,这被称为样本回归模型。
二、两种思考方法
法一:
与是N维空间的两点,与的选择应该是这两点的距离最短。
这可以归结为求解一个数学问题:
由于是残差的定义,因此上述获得与的方法即是与的值应该使残差平方和最小。
法二:
给定,看起来与越近越好(最近距离是0)。
然而,当你选择拟合直线使得与是相当近的时候,与的距离也许变远了,因此存在一个权衡。
一种简单的权衡方式是,给定,拟合直线的选择应该使与、与、...、与的距离的平均值是最小的。
距离是一个绝对值,数学处理较为麻烦,因此,我们把第二种思考方法转化求解数学问题:
由于N为常数,因此法一与法二对于求解与的值是无差异的。
三、求解
定义,利用一阶条件,有:
由
(1)也有:
在这里、
笔记:
这表明:
1、样本回归函数过点,即穿过数据集的中心位置;2、(你能证明吗?
),这意味着,尽管的取值不能保证,但的取值能够保证的平均值与的平均值相等;3、虽然不能保证每一个残差都为0,但我们可以保证残差的平均值为0。
从直觉上看,作为对的一个良好的猜测,它们应该满足这样的性质。
笔记:
对于简单线性回归模型:
,在OLS法下,由正规方程
(1)可知,残差之和为零【注意:
只有拟合直线带有截距时才存在正规方程
(1)】。
由正规方程
(2),并结合正规方程
(1)有:
无论用何种估计方法,我们都希望残差所包含的信息价值很小,如果残差还含有大量的信息价值,那么该估计方法是需要改进的!
对模型利用OLS,我们能保证
(1):
残差均值为零;
(2)残差与解释变量x不相关【一个变量与另一个变量相关是一个重要的信息】。
方程
(1)与
(2)被称为正规方程,把带入
(2),有:
上述获得的方法就是普通最小二乘法(OLS)。
练习:
(1)验证:
提示:
定义的离差为,则离差之和必为零。
利用这个简单的代数性质,不难得到:
笔记:
定义y与x的样本协方差、x的样本方差分别为:
,
则。
上述定义的样本协方差及其样本方差分别是对总体协方差及其总体方差的有偏估计。
相应的无偏估计是:
基于前述对与的定义,可以验证:
其中a,b是常数。
值得指出的是,在本讲义中,在没有引起混淆的情况下,我们有时也用、来表示总体方差与协方差,不过上述公式同样成立。
(2)假定,用OLS法拟合一个过原点的直线:
,求证在OLS法下有:
并验证:
笔记:
1、现在只有一个正规方程,该正规方程同样表明。
然而,由于模型无截距,因此在OLS法下我们不能保证恒成立。
所以,尽管成立,但现在该式并不意味着成立。
2、无截距回归公式的一个应用:
定义、、,则。
按照OLS无截距回归公式,有:
(3)假定,用OLS法拟合一水平直线,即:
,求证。
笔记:
证明上式有两种思路,一种思路是求解一个最优化问题,我们所获得的一个正规方程同样是;另外一种思路是,模型是模型的特例,利用的结论,注意到此时,因此同样有。
(4)对模型进OLS估计,证明残差与样本不相关,即。
四、拟合程度的判断
(一)方差分解及其R2的定义
可以证明,。
证明:
方差表示一个变量波动的信息。
方差分解亦是信息分解。
建立样本回归函数时,从直觉上看,我们当然希望关于的波动信息能够最大程度地体现关于的波动信息。
因此,我们定义判定系数,显然,。
如果R2大,则的波动信息就越能够被的波动信息所体现。
R2也被称为拟合优度。
当时,,而残差均值又为零,因此着各残差必都为零,故样本回归直线与样本数据完全拟合。
(二)总平方和、解释平方和与残差平方和
定义:
其中TSS、ESS、RSS分别被称为总平方和、解释平方和与残差平方和。
根据方差分解,必有:
TSS=ESS+RSS。
因此,
(三)关于R2的基本结论
1、R2也是与的样本相关系数r的平方。
证明:
2、对于简单线性回归模型:
,R2是y与x的样本相关系数的平方。
证明:
练习:
(1)对于模型:
,证明在OLS法下R2=0。
(2)对于模型:
,证明在OLS法
警告!
软件包通常是利用公式,其中来计算R2。
应该注意到,我们在得到结论
时利用了的性质,而该性质只有在拟合直线带有截距时才成立,因此,如果拟合直线无截距,则上述结论并不一定成立,因此,此时我们不能保证R2为一非负值。
总而言之,在利用R2时,我们的模型一定要带有截距。
当然,还有一个大前提,即我们所采用的估计方法是OLS。
五、自由度与调整的R2
如果在模型中增加解释变量,那么总的平方和不变,但残差平方和至少不会增加,一般是减少的。
为什么呢?
举一个例子。
假如我们用OLS法得到的模型估计结果是:
,此时,OLS法估计等价于求解最小化问题:
令最后所获得的目标函数值(也就是残差平方和)为RSS1。
现在考虑对该优化问题施加约束:
并求解,则得到目标函数值RSS2。
比较上述两种情况,相对于RSS1,RSS2是局部最小。
因此,RSS1小于或等于RSS2。
应该注意到,原优化问题施加约束后对应于模型估计结果:
因此,如果单纯依据R2标准,我们应该增加解释变量以使模型拟合得更好。
增加解释变量将增加待估计的参数,在样本容量有限的情况下,这并不一定是明智之举。
这涉及到自由度问题。
什么叫自由度?
假设变量x可以自由地取N个值,那么x的自由度就是N。
然而,如果施加一个约束,,为常数,那么x的自由度就减少了,新的自由度就是N-1。
考虑在样本回归直线下残差的自由度问题。
对残差有多少约束?
根据正规方程
(1)
(2),有:
,因此存在两个约束。
故残差的自由度是N-2。
如果当样本回归函数是:
,则残差的自由度为N-3。
显然,待估计的参数越多,则残差的自由度越小。
自由度过少会带来什么问题?
简单来说,自由度过少会使估计精度很低。
例如,我们从总体中随机抽取来计算以作总体均值的估计,现在x的自由度是N,显然N越大则以作为总体均值的估计越精确。
根据正规方程,我们是通过残差来获得对参数的估计,因此,残差自由度过少意味着我们对参数的估计也是不精确的。
笔记:
举一个极端的例子,对简单线性回归模型,假定我们只有两次观测、。
显然,我们可以保证R2=1,即完全拟合。
但我们得到的这个拟合直线很可能与y与x的真实关系相去甚远,毕竟我们只有两次观测。
事实上,此时残差的自由度为0!
我们经常需要对估计方法进行自由度调整。
例如,当利用公式来估计总体方差时,我们实际上是对变量求样本均值。
然而应该注意到,约束条件恒成立,这意味着变量的自由度是N-1而不是N。
现在对估计方法进行自由度调整,利用作为对总体方差的估计。
上述两种估计具有什么不同的后果呢?
可以证明,是有偏估计而是无偏估计。
笔记:
什么叫有偏估计?
如果我们无限次重复抽取样本容量为N的样本,针对每一个样本都可以依据公式计算总体方差的一个估计值。
然后,对这些方差的估计值计算平均值,如果该平均值不等于总体方差,那么我们就称是对总体方差的一个有偏估计。
抽象一点,即。
R2忽视了自由度调整,这由下面的推导可以看出:
在这里,与都是对相应总体方差的有偏估计。
现在我们对自由度作调整,重新定义一个指标,即所谓的调整的R2():
应该注意到,如果是针对多元线性回归模型,待估计的斜率参数有k个,另外还有1个截距(即总的待估计系数参数的个数为k+1个),那么上述公式就是:
且可能为负数。
思考题:
如果用增加解释变量的方法来提高R2,这一定会提高吗?
笔记:
假设甲同学的回归结果是,而乙同学的回归结果是。
甲同学足够幸运,他获得的确实比乙同学所获得的高,但这是否就意味着,依据已有的样本,甲同学所选取的模型就一定优于乙同学所选取的呢?
答案是“不一定!
”。
对模型的选取不能仅仅依靠这个指标,其他的因素应该被考虑,例如,模型是否符合经济学理论,估计参数是否有符合预期的符号,这些因素在模型选择时都十分重要。
另外一点也特别要引起重视,即被解释变量不同的模型(例如一个模型的被解释变量是,而另一个模型其被解释变量是)其(或者)是不可比的。
总而言之,初学者要坚决抵制仅仅依靠来进行模型选择的诱惑!
六、简单线性回归模型的拓展:
多元线性回归模型
考虑,各系数的估计按照OLS是求解数学问题:
因此,存在三个正规方程:
第一个方程意味着残差之和为零,也意味着及其
笔记:
第一个正规方程可以被改写为。
第二个方程结合第一个正规方程意味着残差与x1样本不相关;
第三个方程结合第一个正规方程意味着残差与x2样本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量 经济学 讲义 第一 共十讲