SPSS总复习题.docx
- 文档编号:11010847
- 上传时间:2023-02-24
- 格式:DOCX
- 页数:39
- 大小:246.90KB
SPSS总复习题.docx
《SPSS总复习题.docx》由会员分享,可在线阅读,更多相关《SPSS总复习题.docx(39页珍藏版)》请在冰豆网上搜索。
SPSS总复习题
SPSS练习题
1.某种生产浴皂过程的设计规格为每批平均生产120块肥皂。
超过或低于这个标准都是不合理的。
有10批产品组成的样本中,每批生产的产品数据如下,假定总体服从正态分布。
108118120122119113124122120123
显著性水平为α=0.05,检验该样本结果能否表示该生产过程运作正常?
解:
这是一个单样本的T检验过程,设总体生产的产品数量平均值为μ,提出原假设H0=120。
Analyze→CompareMeans→One-SampleTTest命令。
One-SampleTest
TestValue=120
t
df
Sig.(2-tailed)
MeanDifference
95%ConfidenceIntervaloftheDifference
Lower
Upper
产品数量
-.705
9
.498
-1.10000
-4.6280
2.4280
结果显示,t统计量值为-0.705,相应的双尾显著性概率为0.498>0.05,因此没有理由拒绝原假设。
故认为据此样本数据推断总体,结果表示该生产过程运作正常。
2.公路损失数据研究机构的伤害和碰撞损失实验报告根据事故后的保险索赔数字对轿车型号进行评分,接近100的指数得分被认为是平均水平,较低的得分意味着更好、更安全的轿车型号。
下表所示数据是20款中型轿车和20型小型轿车的得分。
车型
得分
中型轿车
819193127688160515875100103119821287668819182
小型轿车
731001271001241031191081091131081181031201021229613380140
分析要点:
(1)分别作出中型和小型轿车的五数概括
(2)画出箱线图,并说明以上的汇总里关于中型轿车和小型轿车安全性的比较结果
(3)进一步使用独立样本T检验比较中型轿车和小型轿车安全性
解:
(1)所谓的五数是指:
最小值、25%下四分位数、50%的中位数、75%上四分位数和最大值。
首先对数据文件进行拆分,即按车型进行分组。
Data→SplitFile→Organizeoutputbygroups;Analyze→DescriptiveStatistics→Frequencies,在Statistics对话框中选中PercentileValues栏目下的Quartiles复选框,并选中Dispersion栏目下的Minimum和Maximum两项,在Frequencies对话框中,单击OK按钮。
Statistics(a)
小型
N
Valid
20
Missing
0
Minimum
73.00
Maximum
140.00
Percentiles
25
100.5000
50
108.5000
75
121.5000
a车型=小型
Statistics(a)
中型
N
Valid
20
Missing
0
Minimum
51.00
Maximum
128.00
Percentiles
25
69.7500
50
81.5000
75
98.2500
a³µÐÍ=ÖÐÐÍ
从结果可以看出:
小型轿车得分的最小值73,25%的下四分位数为100.5,中位数为108.5,75%的上四分位数为121.5,最大值为140。
中型轿车得分的最小值51,25%的下四分位数为68.75,中位数为81.50,75%的上四分位数为98.25,最大值为128。
(2)画出箱线图:
Graphs→Boxplot,选中Simple图标,再单击Define按钮定义简单箱线图对话框,“得分”变量移入Variable框内;将“车型”变量移入分类轴CategoryAxis框内。
最后单击OK按钮执行。
中型轿车的得分总的来说低于小型轿车的得分,可初步认为中型轿车更加安全。
(3)进一步使用独立样本T检验比较中型轿车和小型轿车安全性
Analyze→CompareMeans→Independent-SamplesTTest命令。
在DefineGroups对话框中,在Group1框内输入“中型”,在Group2中输入“小型”两个字,然后单击Continue按钮,回到主对话框。
利用输出结果进行t检验分析如下:
首先进行方差齐性检验,由“Levene’sTestforEqualityofVariances两列可知F=1.119,相应的显著性水平概率(Sig)为0.297>0.05,因此没有理由拒绝原假设,可以认为中型轿车与小型轿车得分总体的方差没有显著性差异。
其次检验中型轿车和小型轿车的安全得分的值是否有显著性差异。
因为方差没有显著性差异,所以看第一行的T检验结果。
T=-3.989,相应的双尾显著性概率(Sig(2-tail))小于0.05,因此,高度显著,即认为中型轿车与小型轿车的安全得分有显著性差异。
3.一种新型减肥食品正在作投入市场前的检验。
一个随机样本有8人组成,在他们服用这种减肥食品前记录下每个人的体重。
然后让他们连续服用这种食品一个疗程,再次记录他们的体重,试验结果如下表所示
受试验者
服用减肥食品前的体重/kg
服用减肥食品后的体重/kg
1
75
71.5
2
96
92.5
3
90
85
4
100
96
5
78
73
6
83
79
7
67
66
8
71
71
解:
Analyze→CompareMeans→Paired-SamplesTTest命令
配对的T统计量值为5.071,自由度为7,双尾显著性概率p值0.001<0.05,故拒绝原假设,可以认为服用减肥食品前后平均体重有显著性差异。
4.下表是五个地区每天发生交通事故的次数(单位:
次)
每天发生交通事故的次数
东部
北部
中部
南部
西部
15
12
10
14
13
17
10
14
9
12
14
13
13
7
9
11
17
15
10
14
14
12
8
10
7
9
由于是随机抽样,有一些地区的样本容量较多,而有些地区的样本容量较少。
以α=0.05的显著性水平检验各地区平均每天交通事故的次数是否有显著性差异。
解:
因为本题是检验多个总体是否有显著性差异,所以是方差分析。
Analyze→CompareMeans→One-WayANOVA命令。
将变量Y(交通事故次数)移入DependentList框,且将变量X(所在地区)移入Factor框内。
然后单击Options按钮,在Options对话框中,勾选Descriptives项,以输出描述统计量,勾选Homogeneity-of-variance项,以输出方差齐性检验表。
还可勾选Meansplot项,直观地显示出各个不同地区的交通事故平均次数。
然后按continue按钮,回到One-WayANOVA主对话框。
此独立样本单因素方差分析的五个水平的平均值,即不同地区平均每天交通事故的次数分别是14.25、13.20、9.17、11.17和11.88。
从均值上可以直观地看出东部的最高,其次为北部和中部,而西部相对低些,最少的当属南部。
根据方差齐性检验结果,统计量的值是0.096,第一、第二自由度分别为4、21,相应的显著性概率为0.983,非常大。
因此,没有现由拒绝原假设,认为不同地区的交通事故次数的方差没有显著性差异,即方差具有齐性。
由方差分析表可知,F=3.676,其显著性概率=0.02<0.05,故拒绝原假设,认为各地区平均每天交通事故次数有显著性差异。
5.调查不同职业的男性和女性的收入情况,分析作为财务管理、计算机程序员、药剂师等不同职业的男女之间月薪是否有明显差异,为此,从每个职业中分别选取5名男子和5名女子组成样本,样本中每个人的月薪(单位:
元)数据如下表所示。
用双因素方差分析法分析职业、性别及其交互作用对月薪的影响。
不同职业的男性和女性的收入
序号
月薪/元
职业
性别
序号
月薪/元
职业
性别
1
3488
财务管理
男
16
3536
程序员
女
2
3436
财务管理
男
17
3060
程序员
女
3
4112
财务管理
男
18
2740
程序员
女
4
4468
财务管理
男
19
2800
程序员
女
5
4076
财务管理
男
20
2684
程序员
女
6
2076
财务管理
女
21
4420
药剂师
男
7
2808
财务管理
女
22
4576
药剂师
男
8
3220
财务管理
女
23
4340
药剂师
男
9
2232
财务管理
女
24
3612
药剂师
男
10
2364
财务管理
女
25
3992
药剂师
男
11
2988
程序员
男
26
3252
药剂师
女
12
3064
程序员
男
27
3940
药剂师
女
13
3604
程序员
男
28
4024
药剂师
女
14
2760
程序员
男
29
4136
药剂师
女
15
3524
程序员
男
30
3268
药剂师
女
解:
建立数据文件,变量名称分别为“月薪”、“职业”及“性别”。
其中变量“职业”有3个取值,1=“财务管理”,2=“计算机程序员”,3=“药剂师”。
性别有两个取值,1=“男”,0=“女”。
Analyze→GeneralLinearModel→Univariate命令,在Univariate对话框中,将因变量“月薪”移入DependentVariable框内,并将变量“职业”、“性别”两个因素移入FixedFactor(s)框内。
单击右侧的Options按钮,打开其对话框。
在Display(显示)栏中,勾选Homogeneitytests(方差齐性检验)。
这是方差齐次性检验表,由于Sig.为0.856>0.05,因此认为各项的方差没有显著性差异。
这是方差分析表。
职业、性别和职业性别共同交互作用的Sig.都小于0.05,因此在0.05显著性水平下拒绝原假设,认为职业、性别及其交互作用效应都显著,即对月薪都有显著影响。
6.在一项关于城市租房的研究中,调查了11个小区的情况,资料如下表所示
小区的租房情况资料
小区编号
月平均家庭收入/元
离市中心的距离/km
有三居室的住宅月租金/元
1
3400
7.5
1500
2
3700
6.3
1600
3
3900
5.0
1800
4
4200
3.6
2200
5
4100
4.5
2000
6
4500
4.8
2050
7
4000
3.8
2300
8
5200
4.0
2500
9
6200
3.3
3000
10
6800
3.0
3200
11
7300
4.1
2800
试对月平均家庭收入、离市中心的距离和有三居室月租金三个变量进行相关分析和偏相关分析。
解:
(1)建立数据文件,定义变量X1(月平均家庭收入)、X2(离市中心的距离)、Y(有三居室的住宅月租金。
Analyze→Correlate→Bivariate命令,从左边的源变量框内选中变量X1、X2和y,并将其移入Variables框;这三个变量都是定序变量,所以选择Pearson相关系数。
结果显示:
变量X1、X2和Y的相关系数分别为0.911和-0.851,二者均在0.01的显著性水平下显著。
这一点可以从两方面得知:
其一是这两个数的右肩上的双星**,其二是由第二行双侧检验的显著性概率(Sig.)小于0.01再次得到印证。
结果还表明在0.05的显著性水平下,变量X1和X2的相关系数为-0.642也显著,但二者的负相关表明月平均收入越高,则租住的房子距离市中心越近;而月平均家庭收入越低,则租住的房子距离市中心越远。
(2)调用Partial过程可以对变量进行偏相关分析
Analyze→Correlate→Partial命令,打开PartialCorrelations对话框。
现控制变量X2“离市中心的距离”的影响,对变量X1“月平均家庭收入”与变量Y“有三居室的住宅月租金”进行偏相关分析。
因此,从左侧的源变量框中选中上述后两个变量,将它们移入Variables框;再选择要控制的变量X2,将它移入Controllingfor框中。
结果显示,在控制变量X2即离市中心的距离的情况下,变量X1即月平均家庭收入与变量Y即“有三居室的住宅月租金”的偏相关系数为0.905,因此,在0.01的显著性水平下高度显著。
这一结论同简单相关分析的相同。
重复以上操作,同样可以分别控制变量X1“月平均家庭收入”与变量Y“有三居室的住宅月租金”的影响,对其他两个变量进行偏相关分析。
可见,偏相关系数是一个一个计算输出。
7.一家大型制造业公司每年都要对其雇员进行积极性评估,并按50分制打分(1分代表无积极性……,50分代表最高积极性)。
该公司想确定一名雇员每年失去的工时数与这名雇员的积极性得分之间是否存在某种关系,因此抽取了8名雇员组成的样本,数据如下表所示。
试计算Sperman等级相关系数,即对失去工时数与积极性得分之间关系强度的度量。
雇员序号
失去的工时(X)
积极性得分(Y)
雇员序号
失去的工时(X)
积极性得分(Y)
1
49
39
5
72
22
2
36
42
6
34
35
3
127
10
7
155
15
4
91
25
8
11
48
解:
Analyze→Correlate→Bivariate命令。
输出结果说明:
相关系数为-0.881,说明失去工时数与积极性得分之间呈负相关,意味着:
失去工时数越多,则积极性得分越少。
并且相关系数大于0.8,说明二者之间的相关程度较高。
8.为了了解质量和价格对杂货店惠顾率的影响,调查了某城市中14个主要的店铺,根据店铺偏好、产品质量和定价情况进行排序。
所有的排序都是用11级量表测量的,数据如表所示,数字越在越好。
进行多元回归分析,解释产品质量和定价对店铺偏好的影响。
店铺编号
偏好
质量
价格
店铺编号
偏好
质量
价格
1
6
5
3
8
2
1
4
2
9
6
11
9
11
9
8
3
8
6
4
10
9
5
10
4
3
2
1
11
10
8
8
5
10
6
11
12
2
1
5
6
4
3
1
13
9
8
5
7
5
4
7
14
5
3
2
分析要点:
(1)用一次进入法建立回归方程,估计的回归方程是否很好地拟合了数据;
(2)对总体回归方程显著性的检验,显著性水平为0.01
(3)在0.01的显著性水平下,每个回归系数是否显著
(4)写出回归方程
解:
建立数据文件,定义变量“店铺号”、“偏好”、“质量”和“价格”;Analyze→Regression→Linear命令;将“偏好”变量右移到因变量(Dependent)框中,将自变量“质量”、“价格”移入Independent(s)框中。
并在Method框内选择Enter隐含设置,即自变量一次全部进入的方法;打开Statistics对话框,勾选Modelfit项,勾选回归系数RegressionCoefficients栏下的估计Estimates,则会输出Coefficients表。
结果分析:
这是进入/剔除变量表,此表表明:
因变量是“偏好”;自变量是“价格”、“质量”,且要求二者全部进入回归方程。
这是模型概要:
复相关系数R=0.975;拟合优度R2=0.951,调整后的拟合优度为0.942。
应该说都很高,接近于1,说明回归方程很好地拟合了数据。
这是方差分析表。
从表中看出:
F统计量值为105.826,相应的Sig.是F值的实际显著性概率值,Sig.<0.01,所以拒绝原假设,认为回归方程线性关系显著。
回归系数的显著性检验t检验,即要检验自变量对因变量的影响是否显著。
(原假设系数为0)“质量”和“价格”的Sig.都小于0.01,所以拒绝原假设,认为自变量“质量”和“价格”的回归系数高度显著。
从回归系数表中可以得出其模型:
y=0.976x1+0.251x2+0.535
9.某地区地税局1995-2005年的税收总收入如表所示,试采用曲线估计来预测2006年税收收入
年份
时序(t)
税收总收入/万元
年份
时序(t)
税收总收入/万元
1995
1
44766
2001
7
142906
1996
2
54313
2002
8
176600
1997
3
63397
2003
9
200037
1998
4
74971
2004
10
230316
1999
5
91142
2005
11
271049
2000
6
118711
解:
建立数据文件,定义变量“年份”、Y(税收收入);Analyze→Regression→CurveEstimation命令;将变量Y从左侧源变量框移到右侧因变量Dependents(s)中,在自变量Independent栏中选中time,即选时间为自变量。
选择所在的十一种模型。
在Save对话框中,在SaveVariables栏勾选Predictedvalues(预测值),在PredictCases栏中选中Predictthrough,并在Observation框中输入12,以预测从第1期(1995)到第12期(2006)历年的税收收入。
从“模型概要与参数估计”表中可以看出,二次曲线和三次曲线的拟合优度最高,分别为0.998和0.999。
但从拟合图来看,二次曲线拟合值与近期的实际值更加接近,因此使用二次曲线模型进行预测似乎更合理。
当然,如果该地区2006年的税收形势很好,增长迅猛,即可以用指数曲线预测;反之,增势有减缓趋势,则用三次曲线预测会更准确。
二次曲线(Quadratic):
y=38865.358+3449.550t+1606.756t2
三次曲线(Cubic):
y=45987.773-2433.617t+2780.781t2-65.224t3
指数曲线(Exponential):
y=37242.669e0.185
而三个模型的2006年的预测值则保存在数据文件新生成的FIT_4、FIT_5、FIT_6变量中的第12期中,分别为311632.9、304510.5、344540.7。
10.根据我国各地区2003年3个产业的产值,利用层次聚类法和快速聚类法对我国31个省、自治区和直辖市进行聚类分析。
地区
第一产业产值(X1)
第二产业产值(X2)
第三产业(X3)
北京
95.64
1311.86
2255.60
天津
89.66
1245.29
1112.71
河北
1064.33
3657.19
2377.04
山西
215.19
1389.33
852.07
内蒙古
420.10
973.94
756.38
辽宁
615.80
2898.89
2487.85
吉林
486.90
1143.39
892.33
黑龙江
500.80
2532.45
1396.75
上海
90.64
3130.72
3029.45
江苏
1106.35
6787.11
4567.37
浙江
728.00
4941.00
3726.00
安徽
732.81
1780.60
1458.97
福建
692.94
2492.73
2046.50
江西
560.00
1227.38
1043.08
山东
1480.67
6656.85
4298.41
河南
1239.70
3551.94
2256.95
湖北
798.35
2580.58
2022.78
湖南
886.47
1794.21
1958.05
广东
1093.52
7307.08
5225.27
广西
652.28
1007.96
1074.89
海南
248.33
151.16
271.44
重庆
336.36
977.30
936.90
四川
1128.61
2266.06
2061.65
贵州
298.37
579.31
478.43
云南
502.84
1069.29
893.16
西藏
40.62
47.99
95.89
陕西
320.03
1133.56
944.99
甘肃
236.61
607.62
460.37
青海
46.15
184.26
159.80
宁夏
55.50
192.00
137.84
新疆
412.90
796.84
667.87
解:
建立数据文件。
(1)层次聚类法。
Analyze→Classify→HierarchicalCluster命令;单击“Statistics”按钮,通过“ClusterMembership”框中勾选“Singlesolution”,显示聚类成n(此题选3)类时,各个类的成员构成。
ClusterMembership
Case
地区
3Clusters
1
北京
1
2
天津
1
3
河北
2
4
山西
1
5
内蒙古
3
6
辽宁
3
7
吉林
3
8
黑龙江
3
9
上海
1
10
江苏
2
11
浙江
3
12
安徽
3
13
福建
3
14
江西
3
15
山东
2
16
河南
2
17
湖北
3
18
湖南
3
19
广东
2
20
广西
3
21
海南
1
22
重庆
1
23
四川
2
24
贵州
1
25
云南
3
26
西藏
1
27
陕西
1
28
甘肃
1
29
青海
1
30
宁夏
1
31
新疆
3
从表中可以看
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 复习题