书签分享收藏举报版权申诉 / 71

立即下载加入VIP,免费下载

当前位置：首页 > 党团工作 > 党团建设 > SPSS专题2-回归分析(线性回归、Logistic回归、对数线性模型)PPT资料.ppt

SPSS专题2-回归分析(线性回归、Logistic回归、对数线性模型)PPT资料.ppt

文档编号：13886455
上传时间：2022-10-14
格式：PPT
页数：71
大小：569KB

《SPSS专题2-回归分析(线性回归、Logistic回归、对数线性模型)PPT资料.ppt》由会员分享，可在线阅读，更多相关《SPSS专题2-回归分析(线性回归、Logistic回归、对数线性模型)PPT资料.ppt（71页珍藏版）》请在冰豆网上搜索。

SPSS专题2-回归分析(线性回归、Logistic回归、对数线性模型)PPT资料.ppt

,5,还有定性变量,该数据中，除了初三和高一的成绩之外，还有一个定性变量它是学生在高一时的家庭收入状况；

它有三个水平：

低、中、高，分别在数据中用1、2、3表示。

6,还有定性变量,下面是对三种收入对高一成绩和高一与初三成绩差的盒形图,7,例1：

相关系数,8,SPSS的相关分析,相关分析（hischool.sav）利用SPSS选项：

AnalizeCorrelateBivariate再把两个有关的变量（这里为j3和s1）选入，选择Pearson，Spearman和Kendall就可以得出这三个相关系数和有关的检验结果了（零假设均为不相关）。

9,定量变量的线性回归分析,对例1中的两个变量的数据进行线性回归，就是要找到一条直线来最好地代表散点图中的那些点。

10,检验问题等,对于系数b1=0的检验对于拟合的F检验R2（决定系数）SSR/SST,可能会由于独立变量增加而增加（有按自由度修正的决定系数：

adjustedR2），简单回归时R等于相关系数,11,回到例1：

R2等,12,SPSS的回归分析,自变量和因变量都是定量变量时的线性回归分析（hischool.sav）利用SPSS选项：

AnalizeRegressionLinear再把有关的自变量选入Independent，把因变量选入Dependent，然后OK即可。

如果自变量有多个（多元回归模型），只要都选入就行。

多个自变量的回归,如何解释拟合直线?

什么是逐步回归方法?

14,例子：

RISKFAC.sav,不算序号和（192个）国家有21个变量包括地区（Region）、（在城镇和乡村）使用干净水的、生活污水处理的、饮酒量（litre/yearperson）、（每万人中）内科医生数目、护士和助产士数、卫生工作者数、病床数、护士助产士和内科医生之比、卫生开支占总开支的、占政府开支的、人均卫生开支$、成人识字率、人均收入$、每千个出生中5岁前死亡人数、人口增长率、（男女的）预期寿命（年）、每10万生育的母亲死亡数,15,16,例子：

RISKFAC.sav,该数据有许多相关的变量和许多缺失值假定要用各种变量描述每千个出生中5岁前死亡人数（因变量）可以先做两两相关也可以做定量变量的两两散点图等等或者用逐步回归淘汰变量目的在于摸清关系的底细,17,例子：

RISKFAC.sav:

相关,18,例子：

逐步回归,选中女性预期寿命和农村干净水的作为自变量（第二个自变量相对不那么显著pvalue=0.019）,模型：

女性预期寿命模型：

农村干净水的,19,RISKFAC.sav：

散点图及自变量相关性Pearson相关,20,RISKFAC.sav：

散点图及自变量相关性非参数度量KendallSpearman,21,介绍三个检查异常点的统计量,残差（Residual）.（本例用SPSS中的一种），它描述了样本点到回归直线的远近程度。

杠杆值（Levarage）。

它描述距离数据总体的远近。

高杠杆点对回归的参数影响较大，但其残差通常较小。

Cook统计量。

它结合了残差和杠杆值，因此反映了残差和杠杆二者的影响（较全面）,全模型（两个自变量：

女性预期寿命和农村干净水的）,23,RISKFAC.sav：

全模型异常点诊断：

残差,96（Lesotho）,23（Botswana）,153（SierraLeone）,192（Zimbabwe）,模型：

农村干净水的,24,RISKFAC.sav：

全模型异常点诊断高杠杆点,23（Botswana）,140（Romania）,192（Zimbabwe）,模型：

农村干净水的,25,RISKFAC.sav：

全模型异常点诊断Cook距离,23（Botswana）,96（Lesotho）,192（Zimbabwe）,140（Romania）,模型：

农村干净水的,26,模型1因变量和自变量之一的散点图X：

女性预期寿命（年）Y：

每千个出生中5岁前死亡人数,27,RISKFAC.sav：

只用女性预期寿命作为自变量,模型：

全模型模型：

农村干净水的,28,RISKFAC.sav模型1异常点诊断残差,23（Botswana）,96（Lesotho）,192（Zimbabwe）,模型：

农村干净水的,29,RISKFAC.sav：

模型1异常点诊断高杠杆点不太突出,模型：

农村干净水的,30,RISKFAC.sav：

模型1异常点诊断Cook距离,192（Zimbabwe）,96（Lesotho）,23（Botswana）,模型：

农村干净水的,31,模型2因变量和自变量之一的散点图X：

农村干净水使用Y：

每千个出生中5岁前死亡人数,32,RISKFAC.sav：

只用农村净水使用,模型：

女性预期寿命,33,140（Romania）,RISKFAC.sav模型2异常点诊断残差,模型：

女性预期寿命,34,RISKFAC.sav：

模型2异常点诊断高杠杆点不太突出,模型：

女性预期寿命,35,RISKFAC.sav：

模型2异常点诊断Cook距离,140（Romania）,模型：

女性预期寿命,36,对该例子（RISKFAC.sav）的结果解释,单独用第一个自变量比单独用第二个较好模型1（相应于模型）的“异常点”为一些非洲国家；

它们可能不适合用这个模型。

模型2（相应于模型）的“异常点”为Romania；

它可能不适合用这个模型。

从散点图来看，第一个模型更加线性。

两个自变量的模型的“异常点”为单独模型“异常点”的混合。

其实，用一个自变量就够了。

这两个自变量是相关的。

当然是用第一个了。

可能把异常点排除后再重新建模更好。

37,自变量中有定性变量的回归,例1的数据中,还有一个自变量是定性变量“收入”,以虚拟变量或哑元（dummyvariable）的方式出现;

这里收入的“低”,“中”,“高”，用1,2,3来代表.所以,如果要用这种哑元进行前面回归就没有道理了.以例1数据为例,可以用下面的模型来描述:

38,自变量中有定性变量的回归,现在只要估计b0,b1,和a1,a2,a3即可。

哑元的各个参数a1,a2,a3本身只有相对意义，无法三个都估计，只能够在有约束条件下才能够得到估计。

约束条件可以有很多选择，一种默认的条件是把一个参数设为0，比如a3=0，这样和它有相对意义的a1和a2就可以估计出来了。

对于例1，对b0,b1,a1,a2,a3的估计分别为28.708,0.688,-11.066,-4.679,0。

这时的拟合直线有三条，对三种家庭收入各有一条:

39,例子：

RISKFAC.sav：

因变量：

成人识字率，自变量：

区域（属性变量）、人口增长率、人均收入,40,41,SPSS实现（hischool.sav）,AnalyzeGenerallinearmodelUnivariate，在Options中选择ParameterEstimates，再在主对话框中把因变量（s1）选入DependentVariable，把定量自变量（j3）选入Covariate，把定量因变量（income）选入Factor中。

然后再点击Model，在SpecifyModel中选Custom，再把两个有关的自变量选入右边，再在下面BuildingTerm中选Maineffect。

Continue-OK，就得到结果了（系数和检验等）,SPSSSyntax:

UNIANOVAs1BYincomeWITHj3/METHOD=SSTYPE（3）/INTERCEPT=INCLUDE/CRITERIA=ALPHA（.05）/DESIGN=incomej3.,43,注意,这里进行的线性回归，仅仅是回归的一种，也是历史最悠久的一种。

但是，任何模型都是某种近似；

线性回归当然也不另外。

它被长期广泛深入地研究主要是因为数学上相对简单。

它已经成为其他回归的一个基础。

总应该用批判的眼光看这些模型。

44,例2这是200个不同年龄和性别的人对某项服务产品的认可的数据（logi.sav）.年龄是连续变量,性别是有男和女（分别用1和0表示）两个水平的定性变量,而（定性）变量“观点”则为包含认可（用1表示）和不认可（用0表示）两个水平的定性变量。

从这两张图又可以看出什么呢?

45,Logistic回归,例2是关于200个不同年龄,性别的人对某项服务产品的观点（二元定性变量）的数据（logi.sav）.这里观点是因变量,只有两个值;

所以可以把它看作成功概率为p的Bernoulli试验的结果.但是和单纯的Bernoulli试验不同，这里的概率p为年龄和性别的函数.可以假定下面的（logistic回归）模型,46,Logistic回归,为了循序渐近，先拟合没有性别作为自变量（只有年龄x）的模型,47,Logistic模型拟合结果,依靠计算机，很容易得到b0和b1的估计分别为2.380和-0.069。

拟合的模型为,48,Logistic模型拟合结果,再加上性别变量进行拟合,得到的b0,b1和a0,a1的估计（同样事先确定为a1=0）分别为1.722,-0.072,1.778,0.可以看出年龄影响对男女混和时（0.069）差不多,而女性相对于男性认可的可能性大（a0-a1=1.778）。

49,拟合的年龄-概率图,50,拟合优度检验Hosmer-Lemeshow-goodness-of-fit,这里p值=0.602（不显著）。

注意:

在这里“显著”意味着拟合不好！

51,SPSS的Logistic回归（logi.sav）,自变量为定量变量时：

利用SPSS选项：

AnalizeRegressionBinaryLogistic，再把因变量（opinion）选入DependentVariable，把自变量（age）选入Covariates，OK即可得到结果。

自变量为定量变量及定量变量时：

AnalizeRegressionBinaryLogistic，再把因变量（opinion）选入DependentVariable，把自变量（age和sex）选入Covariates，然后点Categorical，再把定性变量sex选入CategoricalCovariate，回到主对话框，可在options选择Hosmer-Lemeshow-goodness-of-fit检验（检验拟合优度）点击OK即可得到结果。

对数线性模型,多项分布对数线性模型Poisson对数线性模型,53,高维列联表和多项分布对数线性模型,前面例子原始数据是个三维列联表，对三维列联表的检验也类似。

但高维列联表在计算机软件的选项可有所不同，而且可以构造一个所谓（多项分布）对数线性模型（loglinearmodel）来进行分析。

利用对数线性模型的好处是不仅可以直接进行预测，而且可以增加定量变量作为模型的一部分。