1、SPSS实验报告二SPSS实验报告二实验目的:掌握方差分析、相关分析和回归分析的基本操作;掌握其中相关的问题检验;读懂输出结果并进行合理分析。第一题:利用外来工数据,完成下列问题:(1)使用t检验,比较(目前从事行业中)制造业和服务业的总体平均年龄是否有显著差异;分析比较均值独立样本t检验检验变量(年龄)分组变量(所从事的行业)定义组(制造业和服务业)确定组统计量目前从事行业N均值标准差均值的标准误年龄制造业16930.378.366.644服务业9727.917.236.735独立样本检验方差方程的 Levene 检验均值方程的 t 检验FSig.tdfSig.(双侧)均值差值标准误差值差分
2、的 95% 置信区间下限上限年龄假设方差相等3.516.0622.427264.0162.4661.016.4664.466假设方差不相等2.524224.367.0122.466.977.5414.390P0.05)不显著。(3)如果因素影响显著而交互作用不显著,建立非饱和模型,并利用多重比较比较(snk)各因素水平的高低;分析一般线性模型单变量因变量(选择家庭花费V2-2c)固定因子(选择教育程度 月收入)模型(设定 选择V1-3 V2-1到模型M框)继续绘制水平轴(V2-1)单图(V1-3)添加继续两两比较(将V1-3 V2-1指向两两比较检验框P)勾选s-n-k保存勾选预测值(未标准化
3、)残差(标准化)诊断(Cook距离)继续选项勾选(描述统计 方差齐性检验)继续确定主体间效应的检验因变量: 家庭花费(已婚)源III 型平方和df均方FSig.校正模型190574318.839a631762386.47332.143.000截距502244370.1571502244370.157508.270.000V1_312486468.82826243234.4146.318.002V2_1115006246.078428751561.52029.097.000误差248024393.692251988144.995总计1608433153.000258校正的总计438598712.
4、531257a. R 方 = .435(调整 R 方 = .421)家庭花费(已婚)Student-Newman-Keuls教育程度N子集123初中及以下541528.30中专或高中1451969.88大学及以上593071.51Sig.1.0001.0001.000已显示同类子集中的组均值。基于观测到的均值。误差项为均值方 (错误) = 988144.995。a. 使用调和均值样本大小 = 70.814。b. 组大小不相等。将使用组大小的调和均值。不保证 I 型误差级别。c. Alpha = 0.05。家庭花费(已婚)Student-Newman-Keuls月收入N子集123800元以下71
5、232.148011200691421.4212012000871776.5420013000512362.333000元以上443809.95Sig.1451.0001.000已显示同类子集中的组均值。基于观测到的均值。误差项为均值方 (错误) = 988144.995。a. 使用调和均值样本大小 = 23.677。b. 组大小不相等。将使用组大小的调和均值。不保证 I 型误差级别。c. Alpha = 0.05。从家庭花费和教育程度来看,大学及以上学历的群体比初高中及中专学历的群体家庭花费要多出很多。因此,可得出教育程度越高,家庭花费越多。而从家庭花费和月收入来看,800元以下及801到2
6、000元收入的群体家庭花费并不会随着收入的增加而有很大的增幅;但2001到3000元及3000元以上的收入群体的家庭花费会随之增幅很大。因此,大体可得出收入越高的群体家庭花费越多。第二题:应用waste.sav数据,研究固体垃圾排放量与宾馆、餐饮业用地、零售业用地、运输、批发企业用地、金属制造业用地、工业企业用地的关系。(1)、通过散点图观察变量间的相关关系,使用Enter建立模型,判断各自变量间是否存在多重共线性,写出回归方程,说明T检验和F检验的结果图形旧对话框矩阵分布选择简单点定义X轴变量(固体垃圾排放)行(宾馆、餐饮业用地、零售业用地、运输、批发企业用地、金属制造业用地、工业企业用地)
7、分析回归线性因变量(固体垃圾)自变量(宾馆、餐饮业用地、零售业用地、运输、批发企业用地、金属制造业用地、工业企业用地)方法(进入)确定模型汇总模型RR 方调整 R 方标准估计的误差1.921a.849.827.15046a. 预测变量: (常量), 宾馆、餐饮业用地, 金属制造业用地, 工业企业用地, 运输、批发企业用地, 零售业用地。Anovaa模型平方和df均方FSig.1回归4.3265.86538.214.000b残差.77034.023总计5.09539a. 因变量: 固体垃圾排放量b. 预测变量: (常量), 宾馆、餐饮业用地, 金属制造业用地, 工业企业用地, 运输、批发企业用地
8、, 零售业用地。系数a模型非标准化系数标准系数tSig.B标准误差试用版(常量)1.21585.0323.838.001工业企业用地(X1)-5.249E-005.000-.232-2.930.006金属制造业用地(X2)4.345E-005.000.045.283.779运输、批发企业用地(X3)2.5E-004.000.4912.827.008零售业用地(X4)-8.6E-004.000-.439-2.284.029宾馆、餐饮业用地(X5)1.3355E-002.0021.0835.853.000a. 因变量: 固体垃圾排放量共线性诊断a模型维数特征值条件索引方差比例(常量)工业企业用地金
9、属制造业用地运输、批发企业用地零售业用地宾馆、餐饮业用地113.6061.000.02.02.01.01.00.0021.1111.801.05.07.04.02.01.013.6602.338.07.63.02.02.01.004.5102.660.74.12.01.00.02.015.0727.080.05.00.92.90.00.036.0429.310.07.16.00.05.96.93a. 因变量: 固体垃圾排放量通过F检验,其P值小于显著性水平0.05,所以认为它们之间有显著的线性关系,可以构建回归模型。通过T 检验,我们可以得知,除了金属制造业用地的P值大于显著性水平0.05外,
10、即接受原假设,金属制造业用地和固体垃圾排放量没有显著的关系外,其他的四个的P值都小于显著性水平0.05和固体垃圾排放量有显著的关系,工业企业用地和零售业用地和固体垃圾排放量有负相关的关系;而运输、批发企业用地和宾馆、餐饮业用地与固体垃圾排放量有正相关的关系。运输、批发企业用地和宾馆、餐饮业用地、工业企业用地和零售业用地、金属制造业用地的VTF都没有大于10,故它们之间没有多重共线性关系。其回归方程为:y=-0.122-5.249E-005*x1+4.345E-005*x2+0.00025*x3-0.001*x4+0.013*x5(2)、 利用Stepwise建立模型,通过计算D-W统计量和作出
11、残差分布图、pp图等方法初步判断是否存在序列相关、异方差和正态性,保存模型的预测值。选做:以库克距离大于1去除异常点后再做第二个问,对比回归结果。分析回归线性因变量(固体垃圾)自变量(宾馆、餐饮业用地、零售业用地、运输、批发企业用地、金属制造业用地、工业企业用地)方法(进入)勾选统计量(D-W)继续绘制Y(ZRESID)X2(ZPRED)勾选(直方图 正态概念图)继续保存勾选(为标准化预测 未标准化残差 Cook距离)继续选项默认(不需作任何修改)确定残差统计量a极小值极大值均值标准偏差N预测值.12841.7014.3801.3329740标准预测值-.7563.968.0001.00040
12、预测值的标准误差.025.142.043.03140调整的预测值-.97082.1276.3650.4469540残差-.31253.26904.00000.1406540标准残差-2.1051.812.000.94740Student 化残差-3.2782.900.0321.26140已删除的残差-1.351751.24074.01516.3560040Student 化已删除的残差-3.8813.279.0371.36540Mahal。距离.12234.4643.9008.58840Cook 的距离.00014.429.8133.01440居中杠杆值.003.884.100.22040a.
13、 因变量: 固体垃圾排放量模型汇总b模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.921a.849.827.150461.694a. 预测变量: (常量), 宾馆、餐饮业用地, 金属制造业用地, 工业企业用地, 运输、批发企业用地, 零售业用地。b. 因变量: 固体垃圾排放量D-W统计量为1.694,在1.52.5之间,认为无明显的序列相关。通过P-P图可以看到数据点围绕基准线还存在一定的规律,表明标准化残差与标准正态分布不存在显著差异。通过散点图可分析,随着标准化预测值的变化,残差点在0线周围随机分布,但残差随着标准化预测值变化的趋势并不明显,因此异方差现象并不明显。
14、第三题:完成P283,例题9-3,画出外出就餐和年份的散点图,利用复合函数,指数函数和三次函数行拟合,选择最好的拟合模型,写出曲线方程,并对之后两年年的数据进行预测。图形旧对话框散点 点状简单分布定义Y轴(在外就餐)X轴(年份)在数据视图添加年份(输入2003 2004)分析回归曲线估计因变量(在外就餐)变量(年份)勾选(在等式包含常量 根据模型绘图 线性 复合 立方 指数分布)确定指数函数和复合函数的拟合效果最好。复合函数的曲线方程为:y=1.031E-131*1.166*X指数函数的曲线方程:y=1.031E-131*e*(0.154X)而预测后两年的数据分别为683.49853和797.16461 .