线性回归方程中的相关系数.docx
- 文档编号:4105703
- 上传时间:2022-11-27
- 格式:DOCX
- 页数:15
- 大小:47.94KB
线性回归方程中的相关系数.docx
《线性回归方程中的相关系数.docx》由会员分享,可在线阅读,更多相关《线性回归方程中的相关系数.docx(15页珍藏版)》请在冰豆网上搜索。
线性回归方程中的相关系数
10.1线性冋0」
10.1.1线性回归的基本概念
线性冋归分析是描述一个凶变屋(或称为响应变hbdependentvaiiable)Y与一个或多个自变^(independentvanable)X间的线性依存关系。
根据自变塑数目的不同可分为一元线性冋归(只有一个口变呈)和多元线性何归(有两个或两个以上的口变址)。
一元线性回归;
1.一元线性冋归的基本概念
H线回归分析的任务就绘根据若F个观测阳ydi=1.2...n找出描述两个变暈x、y之何关系的直线冋川方Sy*=a+bxM中聘是变&y的估计仏求苴线冋川方程yXi+bx,实际上是用冋归直线拟合敝点图屮的各观测点。
常用的方法是就小二乘法。
也就是使该立线号冬点的纵向乖直距离最小,即使实测值yij回归直线之差的平方和达到最小。
也称为剩余(残垦)平方和。
囚此求冋归方程的问题,01根到底就是求对取得最小侑时,和b的问题。
a称为截距,b为冋归直线的斜率,也称冋归系数。
2.一元线性回归方程的假设理论
徳国数学家鬲斯提出了5个假设理论,満足这些假设的线性冋归模型称为古典线性模型:
(1)正态性假设。
假设随机误茅项5。
;服从均值为苓、方差为6,的正态分布。
(2)等方差件假设。
它假设对于所有的目、5的条件方差同为62,且6为常数。
即Var(f1/xi)=620
⑶独立性假设。
即零均值假设。
它假设在给定圧的条件下.5的条件期卑值为零,即E(ei)=Oo
(4)无口相关性。
假设随机误基项J的逐次观察值互不相关。
即Cov(5£尸XiHj)。
(5)£与x的不相关牲。
假设随机谋差项■与相应的口变呈凡对因变屋y的影响相互
独立。
换言之,两者对囚变Ey的影响是叮以区分的。
即Cov(t,,出)二0。
3.—元线性回归方程的检验
根拥原始数据,求岀冋归方程后就需要对冋归方程进行检验。
检验的假设是总体冋归系数为0。
另外耍检验冋归方程对因变量的预测效果如何。
⑴回归系数的显著性检验
•对叙率的检验,假设是:
总体回归系数为0。
•对截距的检验,假设是:
总体回归方程截距a=0°
(2)R?
判定系数
在判定一个线性回!
H育•线的拟合优度的好坏时,衣系数是一个電要的判世指标。
从公式可以得到判定系数竽于冋归平方和在总平方和屮所占•的比率,即R,体现了冋归模型所能解釋的因变址变异性的门分比。
如果R2=0.775.则说明变址y的变并中有77.5%是由变UxJI起的。
当R—1时.表不所有的观测点全部落在回归直线上。
当RM时,表示口变呈与冈变呈无线性关系。
为了尽叮能准确的反应模型的拟合度,SPSS输出中的AdjustedRSquare是消除了口
变呈个数影响的R?
的修圧值。
(3)方差分析
体现因变址观测值9均值之间的差界的偏差平方和S缶是由两个部分组成的,即|叫归平方和SS"它们反应了口变氓X的重要程度;残差平方和SS“它反应了实验误差以及其他盘外因索对实验结果的影响。
表示为:
SS产SS厂SS°・,这两部分除以各口的口由度,得到它们的均方,统计量F=l叫归均方/残差均方。
当F值太丿、时,拒绝接受b=0的假设。
(4)Durbin-Watson检验
在对回归模型的诊断中,有一个非常重要的回归模型假设需要诊断,那就是回归模型中的误签项的独立性。
如果误斧项不独立,那么对冋归模型的任何佔计与假设所作出的结论都是不可靠的。
其参数称为Du•或D。
D的取值范围是0 •当残差与自变呈互为独立时,D~2° •当相邻两点的残差为止相关时,D<2o •当相邻两点的残差为负相关时,D>2。 (5)残为崗示法,在直角坐标系中・以预测值为区1横轴,以y与之间区]的误丼s为纵轴(或学生化残葢与拟和值或一个自变星为纵轴),绘制残斧的散点图。 如果散点呈现出明显的规律性,则认为存在口相关性或者」匸线性或者#常数方差的问•题。 这样需要对数据、因变駅或口变W进行变换。 如果散点呈现随机分布,斜率为零,则认为口相关存在的可能性不大,独立性假设成立。 多元线性回归 1.多元线性回归的基本概念 根据多个口变呈的最优组合建立回归方程來预测因变呈的回山分析称为多元回山分析。 多元回归分析的模型为: v^=bo+bixl十b? x2十…十bn? g 其中y*多为根据所有自变塑X计算出的估计值,bo为常数项,5、b2...ba称为y对应于心、x2...xn的偏回归系数。 偏回归系数表示假设在其他所有口变呈不变的悄况卜•,某一个口变呈变化引起因变虽变化的比率。 多兀线性冋归模型也必须满足一兀线性冋归屮所述的假设理论° 2.多元线性回归分析中的参数 ⑴复相关系数R,复相关系数表示口变虽x与其他的因变呈蜀之间线性相关密切程度的指标,复相关系数使用字母R表示。 复相关系数的取值范禺在0〜1之间。 其值越接近1,表示其线性关系越强•而其值越接近0.表示线性关系越差。 (2)R2判定系数与经调整的判定系数 与一兀I叫归方程相同,在多兀冋归屮也使用判定系数/来解释冋归模型屮口变址的变异在因变虽变异中所占比率。 但是,判定系数的值随着进入回归方程的自变虽的个数(或样木容呈的大小n)的増加血增人。 因此,为J'消除口变虽的个数以及样本址的人小对判定系数的影响,引进了经调到的判宦系数(AdjustedRSquaie)。 线性回归方程中的相关系数r r=E(Xi-X的平均数)(Yi-Y平均数)/根号下[£(Xi-X平均数厂2*£(Yi-Y平均数厂2] R2就是相关系数的平方, R在一元线性方程就直接是因变疑自变量的相关系数,多元则是复相关系数 判定系数RA2 也叫拟合优度、可决系数。 表达式是: RA2=ESS/TSS=1-RSS/TSS 该统计疑越接近于1,模型的拟合优度越高。 问题: 在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大 这就给人一个错觉: 要使得模型拟合得好,只要增加解释变量即可。 —一但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。 这就有了调整的拟合优度: RlA2=l-(RSS/(n-k-l))/(TSS/(n-l)) 在样本容量一立的情况下,增加解释变量必左使得自由度减少,所以调整的思路是: 将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响: 其中: n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。 总是来说,调整的判定系数比起判左系数,除去了因为变量个数增加对判左结果的影响。 R=R接近于1表明Y与XI,X2,Xk之间的线性关系程度密切: R接近于0表明Y与X2,X2,Xk之间的线性关系程度不密切 相关系数就是线性相关度的大小,1为(100%)绝对正相关,0为0%,-1为(100%)绝对负相关 相关系数绝对值越靠近1,线性相关性质越好,根据数据描点画出来的函数•自变量图线越趋近于一条平直线,拟合的直线与描点所得图线也更相近。 如果其绝对值越靠近0,那么就说明线性相关性越差,根据数据点描出的图线和拟合曲线相差越远(当相关系数太小时,本来拟介就已经没有意义,如果强行拟合一条直线,再把数据点在同一坐标纸上画出来,可以发现大部分的点偏离这条直线很远,所以用这个直线来拟合是会出现很大误差的或者说是根本错误的)° 分为一元线性回归和多元线性回归 线性回归方程中,回归系数的含义 一元: Y—bX+ab表示X每变动(增加或减少)1个单位,Y平均变动(增加或减少)b各单位多元: YA=b1Xl+b2X2+b3X3+a在其他变量不变的情况下,某变量变动1单位,引起y平均变动 以b2为例: b2表示在X1、X3(在其他变咼不变的情况下)不变得情况下,X2每变动1单位,y平均变动b2单位就一个reg来说y=a+bx+e a+bx的误差称为explainedsumofsquaree的误差是不能解释的是residualsumofsquare总误差就是TSS 所以TSS二RSS+ESS 判定系数也叫拟合优度、可决系数匚表达式是 R2 =1一 RSS TSS 该统H鱼越接近于1,模型的拟合优度越高。 问题: 在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大 这就给人一个错觉: 要使得模型拟合得好,只要增加解释变疑即可。 —H是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。 这就有了调整的拟合优度 豆2二、_RSSS_斤_1) TSS/(n-l) 在样本容量一左的情况下,增加解释变疑必定使得自由度减少,所以调整的思路是: 将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响: 英中: n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。 总是来说,调整的判泄系数比起判左系数,除去了因为变量个数增加对判左结果的影响。 顺便补充一下: 记TSS=^-n2总离差平方和 ESS二工(£—i7尸回归平方和 rss二》(】;-£)2剩余平方和 一般做回归的时候要求拟合优度(实际值与拟合值相关系数的平方)越高越好,可以通过增加解释变量来实现,可是解释变疑多了后很多解释变量的系数T检验不显著了,而且增加很多变量后模型的自由度就减少了,这些情况狂的存在往往使得模型预测不精确;修正拟合优度就是将残差平方和跟总离差平方和分别除以各自的自由度,这样就剔除了变量个数对其影响了。 首先有一个恒等式: TSS=ESS+RSS 即总偏差平方和=回归平方和+残差平方和 通常情况,我们都是讨论解释变疑对总效应的贡献,使用一个叫"拟合优度"(或者叫"判泄系数")的指标 其定义为: 回归平方和/总偏差平方和=ESS/TSS=(TSS-RSS)/TSS=(923-325)/923 如果说随机谋差对总效应的贡献,那可以直接RSS/TSS因为1-(TSS-RSS)/TSS就可以化为RSS/TSS (3)零阶相关系数、部分相关打偏相关系数 •这里的零阶相关系数(ZeiuOder)计算所有自变鉀JI対变量之间的简单相关关系。 •部分和^(PartCon-elation)表示: 在排除了其他口变园对x,的影响后,当一个口变呈进入回归方程模型后,复相关系数的平方増加虽。 •偏相关系数(PaiHalConelation)表示: 在排除了其他变吐的影响后,口变试人与因变早: yZ间的相关程度。 部分相关系数小于偏相关系数偏相关系数也可以用来作为筛选口变虽的指标,即通过比较偏相关系数的大小来判别哪些变虽对因变虽具有较大的彫响力。 3.多元线性回归分析的检验 建屯了多元I口I归方程后,需要进行誡著性检验,以确认建立的数学模型是否很好的拟合了原始数据,即该冋归方程是否有效。 利用残养分析,确定冋归方程足否违反了假设理论。 对各口变虽进行检验,其假设是总体的冋归方程口变量系数或常数项为0,以便在I口I归方程中保留对冈变屋y值预测更有效的口变呈、以便确定数学模型足否有效。 (1)方差分析 与一兀回归方程的检验相同,多兀回归方程也采用方斧分析方法对回归方程进行检验,检验的假设是总体的回归系数均为0或不都为非0。 它是对辖个回山方程的显箸性检验。 使用统计虽F进行检验。 原理与一元回归的方程分析原理相同。 (2)偏回归系数与常数项的检验 检验的假设是: 各口变址I叫归系数为0,常数项为零。 它使用的统计虽是t° 1=偏阿归系数/偏回归系数的标准误。 (3)方差齐性检验 SPSS中pearson(皮尔逊相关系数)看r值还是P值,确定相关性 两个值都要看,r值表示在样本中变量间的相关系数,表示相关性的大小: p值是检验值,是检验两变量在样本来自的总体中是否存在和样本一样的相关性。 SPSS回归系数SIG 在SPSS软件统计结果中,不管是回归分析还是貝它分析,都会看到"SIG”, SIG=significance,意为"显著性",后而的值就是统讣出的P值,如果P值0.01 sig是指的的显著性水平,就是p值,一般来说接近0.00越好,过大的话只能说不显著,sig是F检验的结果,<0.01代表方程通过检验,进行回归分析是有效的 F表示数据的方差,sig表示显著性,也就是对F检验的结果,如果sig>0.05则说明模型受误差因素干扰太大不能接受。 R是复相关系数,表示观测值和模型描述值之间的线性相关系数,越大越好。 R方通俗的说就是解释率,就是说你的自变疑能够解释多少因变疑的变化。 具体到你这个就是模型不能接受,自变量解释了22.1%,剩下的只能用误差解释。 SPSS软件的线性回归分析中,输岀了一个anova表,表中的回归、残差、平方和、击、均方、F、sig分别代表什么 回归是方法 残差是实测与预计值的差值 平方和有很多个,不同的平方和的意思不一样 df是自由度 均方是方差除以自由度 f是f分布的统计量 sig是p值 anova表中的"回归平方和"表示反应变量的变异中的回归模式中所包含的自变量所能解释的部分。 "残差平方和"代表反应变量的变异中没有被回归模型所包含的变量解释的部分。 这两个值与样本屋及模型中自变戢的个数有关,样本量越大,相应变异就越大。 df是自由度,是自由取值的变量个数,F为F检验统il鱼,用于检验该回归方程是否有意义,当Sig对应的值小于0.05(当显著性水平为0.05时)时,说明所建立的回归方程具有统汁学意义,即自变量和因变量之间存在线性关系。 多元线性回归分析中,t检验与F检验有何不同 t检验常能用作检验回归方程中各个参数的显著性,而f检验则能用作检验整个回归关系的显著性。 各解释变量联合起来对被解释变量有显著的线性关系,并不意味着每一个解释变量分别对被解释变量有显著的线性关系 F检验主要是检验因变量同多个自变量的整体线性关系是否显著,在k个自变量中,只要有一个自变量同因变量的线性关系显著,t检验则是对每个回归系数分别进行单独的检验,以判断每个自变量对因变量的影响是否显著。 方差齐性是指残差的分布是常数,与预测变虽或因变虽无关。 即残差应随机的分布在一条穿过0点的水平直线的两侧。 任实际应用中,一般是绘制因变虽预测值与学生残差的散点图。 在线性冋归Plots对话框中的源变屋表中,选择SRESID(学牛氏残羞)做Y轴;选择ZPRED(标准化预测值)做X轴就可以在执行后的输出信息中显示检验方差齐性的散点图。 (4)回归模型残差的正态性检验 检验的方法多种命样,其中最直观、最简单的方法是残幷的直方图和累积概率图。 需要指出的是,希與残怎完全服从于正态分布也足不现实的,即使%在很理想的总体数据,样本的残差的分布也只能是近似于正态分布。 •残差的克方图。 在Plots子对话框中,选择Hislograin选择项就叮以得到残差的亢方图。 •残差的累积概率图(P-P图)。 P-P图是一种概率分布图,它是用来判断一个变虽的分布是否符介一个持定的“检测分布”。 这个检测分布包括: B亡Ta分布,Chi-square分布,Exponential分布,Gamma分布,Half-normal分布,Laplace分布,Logistic分布,Lognoima1分布,Normal分布,Parero分布,Studen讥分布,Weibull分布,Uiiifonn分布。 如果两种分布星木札I同,那么在P・P图中的点应该I制绕在一条斜线的周I制,如果两种分布完全相同,那么在P-P图中应该只有一条斜线c通过观察比较观测数据的残差(曲线) 在假设直线(正态分布)周围的分布町以对两种分布进行比较C (5)残差图示法 利用残幷图可以判断模型拟合效果°在残葢图中,如果各点呈随机状.并绝大部分落在士26范闱(68%的点落在士6之中,96%的点落在士26之中)内,说明模型对于数据的拟合效果较好。 如果大部分点落在上26范围之外,说明模犁对于数据的拟合效果不好。 计算结果肺活量例子 表10-1引入或剔除的变屋 Model VariablesEntered VariablesRemoved Method 1 体重° Entei* a.Allrequestedvariablesentered b.DependentVariable: 肺活帚 表10-2模型摘要 Model R RSquare AdjustedRSquare Std.ErroroftheEstimate 1 .749a .562 .518 .2878 a.Pi-edicTois(Constant),体車 表10-3方差分析 Model Sumofsquares di MeanSquare F Sig. 1Regi^ssion 1.061 1 1.061 12.82 .005a Residual .828 10 8.3E-02 Total 1.SS9 11 a.Prcdictois(Constant).体重 b.DependentVariable: fir|j活最 表10-4回归系数 Model UhstandardizcdCoefficients StandardizedCoefficients t Sig. B Std.En'or Beta 1(Constant) 4.130E-04 .815 .001 1.000 体重 5.S83E-O2 .016 .749 3.5S0 .005 a.DependentVaiiablc;肺活童 结果分析如下: 表10・1: 弓I入或剔除的变呈(VariableEntered/Removed);用强迫弓I入法(Enter)»变呈X(体重)被弓队。 表10-2: 模型摘要(ModelSummaiy): 相关系数(R尸0.749、判定系数(RSquare,R2>0.562、调整判定系数(AdjustedRSquare)=0.5I8、估计值的标准误(Std.EitoioftheEsriniate)=O.287S)° 表10・3: 方茅分析(ANOVA);回归的均方(Reaessiou-MeauSqiiaie)=1.06h剩余的均方(ResidualMeanSquare)=0.0828,F=12817.甘0.005。 可认为变坡X和Y之间有闫线关系。 表104: 冋归分析中的系数(Coefficients): 常数项(Constant)=0.0004冋归系数(E)=O.O5883、回归系数的标准浜(Std.Eiior)=0.016s标准化回归系数(Beta)=0.749: 回归系数t检验的tffi=3.58fP=0.005(与方签分析一致),可认为冋归系数有显著意义。 得直线冋归方程为: y=0.000413+0.05883xo 对数据标准化,即将原始数据减去相应变量的鯉后再除以该变量的标准差,汁算得到的回归方程称为标准化回归方程,相应得回归系数为标准化回归系数。 标准化回归系数(Beta值)在多元回归中被用来比较变量间的重要性 B是指回归系数,beta是指标准回归系数,beta=B/S(B),beta是用来比较各个系数之间的绝对作用或者贡献的大小,B值是不能判断的绝对贡献的。 t值是对该回归系数B做假设检验的结果,P值小于0.05才可以认为有意义,但是具体问题要具体分析,有的时候要考虑交互作用等 常数项为负p值0.04,拒绝常数项为0的假设,统计显著,没问题 betacoefficient就是标准回归系数,它是首先把各个自变量进行Z转换(数据值-数据平均值然后除以标准差)之后再进行回归,此时得出的回归系数称为标准化回归系数。 Z转换可以把%个自变量的数级、量纲统一标准化,也就可以根据标准化回归系数的大小比较出各个自变虽: 在回归方程中的效应大小。 标准回归系数 standardizedregressioncoefficientD戈standardregressioncoefficient 消除了因变量y和自变量xl,x2,-xn所取单位的影响之后的回归系数,其绝对值的大小直接反映了xi对y的影响程度 计算方法 对数据标准化,即将原始数据减去相应变量的均数后再除以该变疑的标准差,计算得到的回归方程称为标准化回归方程,相应得回归系数为标准化回归系数。 公式 若假定回归方程的形式如下: Y=bO-blXl+b2X2+…+bjXj+…+bJXJ(Y是估讣值)貝中,回归参数bO.bl,...,bJ通过最小二乘法求得。 则标准化回归系数bj'=bj*(Xj的标准差/Y的标准差)理解方法 标准化回归系数(Beta值)在多元回归中被用来比较变量间的重要性。 但是由于重要性这一词意义的含糊性,这一统计常被误用。 有时人们说重要性,是指同样的条件下,哪一个东西更有效。 在提髙教学质量上,是硬件条重要还是师资更重要? 如果是师资更重要,那么同样的物力投在师资上就可以更快地提髙教学质量。 但是这里要比较的两者必须有同样的测屋单位,如成本(元)。 如果变量的单位不同,我们不能绝对地说那个变屋更重要。 不同单位的两个东西是不能绝对地比出髙低轻重来。 要想进行绝对地比较,就需要两个东西有着共同的测度单位,否则无法比较。 而标准化回归系数说的重要性则与上而的意义不同,这是一种相对的重要性,与某一特立的情况下,自变量间的离散程度有关。 比如说,虽然我们不能绝对地说出教育和年资在决立收入上那一个一龙是重要的,但如果现在大家的教冇程度比较相似,那么在收入的决立上,工作年数就是决左因素: 反之,如果工作年数没有太大区别,那么教育就成为了重要原因。 这里的重要性是相对的,是根据不同情况而改变的。 再举一个通俗的例子,研究者研究的是遗传因素和后天因素对于人成长的影响。 那么在一个社会境遇悬殊巨大的环境中,有人在贫民窟成长,有人在贵族学校上学,那么我们会发现人格的大部分差异会从后天环境因素得到解释,而遗传的作用就相对较小: 相反,如果儿童都是在一个相差不大的环境中长大的,你会发现,遗传会解释大部分的人格差异。 这种意义上的重要性,不仅与这一自变量的回归系数有关系,而且还与这个自变虽的波动程度有关系: 如果苴波动程度较大,那么就会砒娥为巫要: 否则,就显得不太重要。 标准化回归系数匸是测量这种重要性的。 从标准化回归系数的公式中也可看出,Beta值是仃自变量的标准差与成正比的,自变啟波.: 的增加,会使它在这一具体情况下的重要性增加。 但是如果将两种重要性混同,就会得到误导性结论。 如环境因素的Beta值比遗传因素的Beta值大,就认为在个体的人格发展上应更注意环境因素,而轻视遗传因素,在目前对于Beta值的错误观念非常流行,甚至是一些高手中。 标准化回归系数的匕[果只是适用于某一特定环境的,而不是绝对正确的,它可能因时因地而变化。 举例来说,从某一次数据中得岀,在影响人格形成的因素中,环境因素的Beta值比遗传因素的Beta值大,这只能说明数据采集当时当地的情况,而不能加以任何不恰当的推论,不能绝对地不加任何限左地说,环境因素的影响就是比遗传因素大。 事实上,如果未来环境因素的波动程度变小,很可能遗传因素就显得更为重要。 数据的情况千
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 方程 中的 相关系数