应用回归实验报告.docx
- 文档编号:5400047
- 上传时间:2022-12-15
- 格式:DOCX
- 页数:24
- 大小:132.19KB
应用回归实验报告.docx
《应用回归实验报告.docx》由会员分享,可在线阅读,更多相关《应用回归实验报告.docx(24页珍藏版)》请在冰豆网上搜索。
应用回归实验报告
应用回归实验报告
重庆交通大学
学生实验报告
实验课程名称应用回归分析
开课实验室理学院实验室
学院09年级信息与计算科学专业班1
学生姓名林艳学号09180117
开课时间2011至2012学年第1学期
总成绩
教师签名
2.15一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。
经过10周时间,收集了每周加班工作时间的数据和签发的心保单数目,x为每周签发的新保单数目,y为每周加班工作时间(小时)。
见表2.7.
表2.7
周序号
1
2
3
4
5
6
7
8
9
10
X
825
215
1070
550
480
920
1350
325
670
1215
Y
3.5
1.0
4.0
2.0
1.0
3.0
4.5
1.5
3.0
5.0
(1)画散点图;
答:
(2)X与y之间是否大致呈线性关系;
答:
由
(1)的散点图可以看出x与y之间大致呈线性关系。
(3)用最小二乘估计求出回归方程;
答:
由SPSS得:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
.118
.355
.333
.748
x
.004
.000
.949
8.509
.000
a.因变量:
y
由该系数表得出最小二乘估计的回归方程为:
(4)求回归标准误差;
答:
模型汇总
模型
R
R方
调整R方
标准估计的误差
1
.949a
.900
.888
.48002
a.预测变量:
(常量),x。
由上表得回归标准误差为:
=0.48002
(5)给出
与
的置信度为95%的区间估计;
答:
系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
B
标准误差
试用版
下限
上限
1
(常量)
.118
.355
.333
.748
-.701
.937
x
.004
.000
.949
8.509
.000
.003
.005
a.因变量:
y
由上表得:
得置信区间为:
(-0.701,0.0937);
得置信区间为:
(0.003,0.005);
(6)计算x与y的决定系数;
答:
由(4)得模型汇总表得:
=0.900,从相对水平上来看,回归方程能够减少因变量y得99.0%得方差波动。
(7)对回归方程做方差分析;
答:
由SPSS得方差表:
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
16.682
1
16.682
72.396
.000a
残差
1.843
8
.230
总计
18.525
9
a.预测变量:
(常量),x。
b.因变量:
y
由方差分析表中看到,F=72.396,Sig=0.000,说明y对x得线性回归高度显著。
(8)做回归系数β1显著性的检验;
答:
从(5)中得系数表中可得:
回归系数β1检验的t值=8.509,显著性Sig=0.000,与F检验的检验结果一致。
(9)做相关系数的显著性检验;
答:
从(4)的模型汇总表可得:
r=0.949,说明y与x有显著的线性关系,与F检验和回归系数检验的结果一致。
也说明对于一元线性回归三种检验的结果是完全一致的;
(10)对回归方程作残差图并作相应的分析;
答:
残差图:
从残差图上看出,残差是围绕e=0随机扰动,从而模型的基本假定是满足的。
(11)该公司预计下一周签发新保单
=1000张,需要的加班时间是多少?
答:
由SPSS得下表:
x
y
PRE
LICI
UICI
LMCI
UMCI
825
3.5
3.07586
1.91329
4.23844
2.72051
3.43122
215
1
0.88893
-0.38791
2.16577
0.25253
1.52534
1070
4
3.95422
2.75531
5.15314
3.49369
4.41475
550
2
2.08995
0.91086
3.26905
1.6838
2.49611
480
1
1.83899
0.64613
3.03185
1.39446
2.28353
920
3
3.41645
2.24538
4.58752
3.03422
3.79868
1350
4.5
4.95806
3.66413
6.25199
4.28802
5.62809
325
1.5
1.2833
0.04712
2.51947
0.733
1.83359
670
3
2.52017
1.35577
3.68457
2.15889
2.88145
1215
5
4.47406
3.23246
5.71567
3.91169
5.03644
1000
3.70326
2.51949
4.88703
3.28373
4.12279
从表中得出加班时间:
(12)给出
的置信水平为95%的精确预测区间和近似预测区间。
答:
从(10)表可以得出
置信水平为95%的精确预测区间为(3.28373,4.12279),近似预测区间为
即(2.74332,3.70326)。
(13)给出E(
)置信水平为95%的区间估计。
答:
从(11)表中得E(
)置信水平为95%的区间估计为:
(2.51949,4.88703)。
2.16表2.8是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和学生的人均经费投入x(美元)。
(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?
(2)建立y对x的线性回归;
(3)用线性回归的Plots功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假设。
(4)通过p-p图或q-q,若有异常点剔出后再分析。
表2.8
序号
y
x
序号
y
x
序号
y
x
1
19583
3346
18
20816
3059
35
19538
2642
2
20263
3114
19
18095
2967
36
20460
3124
3
20325
3554
20
20939
3285
37
21419
2752
4
26800
4542
21
22644
3914
38
25106
3429
5
29470
4669
22
24624
4517
39
22482
3947
6
26610
4888
23
27186
4349
40
20969
2509
7
30678
5710
24
33990
5020
41
27224
5440
8
27170
5536
25
23382
3594
42
25892
4042
9
25853
4168
26
20627
2821
43
22644
3402
10
24500
3547
27
22795
3366
44
24640
2829
11
24274
3159
28
21570
2920
45
22341
2297
12
27140
3621
29
22080
2980
46
25610
2932
13
30168
3782
30
22250
3731
47
26015
3705
14
26525
4247
31
20940
2853
48
25788
4123
15
27360
3982
32
21800
2533
49
29132
3608
16
21690
3568
33
22934
2729
50
41480
8349
17
21974
3155
34
18443
2305
51
25845
3766
解:
(1)
由图看出x与y大致呈直线关系;
(2):
由SPSS得:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
12109.879
1196.948
10.117
.000
x
3.314
.312
.835
10.630
.000
a.因变量:
y
回归方程为:
(3)
由标准残差的直方图和正态概率图可以看出,误差项通过了正态性假设。
(4)
y
x
DRE
ZRE
SRE
19583
3346
-3696.68
-1.55754
-1.5748
20263
3114
-2224.35
-0.93347
-0.9457
20325
3554
-3636.03
-1.53486
-1.55042
26800
4542
-375.051
-0.15628
-0.15889
29470
4669
1958.184
0.81246
0.8278
26610
4888
-1780.17
-0.73204
-0.7492
30678
5710
-392.213
-0.15325
-0.1609
27170
5536
-3575.91
-1.41585
-1.47673
25853
4168
-72.0447
-0.0303
-0.03066
24500
3547
647.7138
0.27341
0.27618
24274
3159
1737.722
0.72993
0.73915
27140
3621
3090.409
1.30489
1.31794
30168
3782
5635.198
2.37929
2.40314
26525
4247
348.5929
0.14638
0.14825
27360
3982
2097.342
0.88432
0.8938
21690
3568
-2290.41
-0.96691
-0.97667
21974
3155
-607.181
-0.25503
-0.25826
20816
3059
-1471.5
-0.61677
-0.62523
18095
2967
-3963.59
-1.65744
-1.68214
20939
3285
-2105.59
-0.8864
-0.89661
22644
3914
-2488.5
-1.04991
-1.06083
24624
4517
-2536.66
-1.05785
-1.07509
27186
4349
681.4174
0.28548
0.28947
33990
5020
5526.425
2.25829
2.31852
23382
3594
-651.909
-0.27524
-0.278
20627
2821
-860.884
-0.35843
-0.36456
22795
3366
-480.739
-0.2026
-0.20482
21570
2920
-224.075
-0.09358
-0.09503
22080
2980
96.67974
0.04044
0.04104
22250
3731
-2269.6
-0.95838
-0.96793
20940
2853
-646.131
-0.26929
-0.27376
21800
2533
1354.868
0.55793
0.57061
22934
2729
1847.029
0.76658
0.78094
18443
2305
-1381.23
-0.56254
-0.57851
19538
2642
-1382.66
-0.57197
-0.58364
20460
3124
-2055.73
-0.86289
-0.8741
21419
2752
195.4905
0.0812
0.08269
25106
3429
1666.631
0.70287
0.71033
22482
3947
-2766.33
-1.1668
-1.1791
20969
2509
569.472
0.23426
0.23971
27224
5440
-3149.78
-1.25555
-1.30514
25892
4042
394.8458
0.16637
0.16821
22644
3402
-756.692
-0.31903
-0.32246
24640
2829
3262.392
1.35865
1.38173
22341
2297
2770.396
1.12784
1.1601
25610
2932
3900.366
1.62942
1.65451
26015
3705
1658.646
0.70041
0.70738
25788
4123
14.12031
0.00594
0.00601
29132
3608
5166.6
2.18145
2.20331
41480
8349
2883.048
0.73228
0.9536
25845
3766
1279.154
0.54011
0.54551
由标准化残差可以看出无异常点。
3.11研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。
数据见表3.9.
表3.9
货运总量y(万吨)
工业总产值x1亿元
农业总产值x1亿元
居民非商品之处x3(亿元)
160
70
35
1.0
260
75
40
2.4
210
65
40
2.0
265
74
42
3.0
240
72
38
1.2
220
68
45
1.5
275
78
42
4.0
160
66
36
2.0
275
70
44
3.2
250
65
42
3.0
(1)计算出y,x1,x2,x3的相关系数矩阵;
解:
由SPSS软件得:
相关性
y
x1
x2
x3
y
Pearson相关性
1
.556
.731*
.724*
显著性(双侧)
.095
.016
.018
N
10
10
10
10
x1
Pearson相关性
.556
1
.113
.398
显著性(双侧)
.095
.756
.254
N
10
10
10
10
x2
Pearson相关性
.731*
.113
1
.547
显著性(双侧)
.016
.756
.101
N
10
10
10
10
x3
Pearson相关性
.724*
.398
.547
1
显著性(双侧)
.018
.254
.101
N
10
10
10
10
*.在0.05水平(双侧)上显著相关。
所以y,x1,x2,x3的相关系数矩阵为:
(2)求y关于x1,x2,x3的三元线性回归方程;
解:
由SPSS得:
系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
B
标准误差
试用版
下限
上限
1
(常量)
-348.280
176.459
-1.974
.096
-780.060
83.500
x1
3.754
1.933
.385
1.942
.100
-.977
8.485
x2
7.101
2.880
.535
2.465
.049
.053
14.149
x3
12.447
10.569
.277
1.178
.284
-13.415
38.310
a.因变量:
y
由上表可得:
=3.754x1+7.101x2+12.447x3-348.280
⑶对所求得的方程作拟合优度检验;
模型汇总b
模型
R
R方
调整R方
标准估计的误差
1
.898a
.806
.708
23.442
a.预测变量:
(常量),x3,x1,x2。
b.因变量:
y
复相关系数R=0.806,决定系数R方=0.898,由决定系数看回归方程显著相关。
(4)对回归方程作显著性检验;
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
13655.370
3
4551.790
8.283
.015a
残差
3297.130
6
549.522
总计
16952.500
9
a.预测变量:
(常量),x3,x1,x2。
b.因变量:
y
方差分析表,F=8.283,P=0.015,表明回归方程显著相关,说明x1,x2,x3整体上对y有显著的线性影响。
(5)对每一个回归系数作显著性检验;
系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
B
标准误差
试用版
下限
上限
1
(常量)
-348.280
176.459
-1.974
.096
-780.060
83.500
x1
3.754
1.933
.385
1.942
.100
-.977
8.485
x2
7.101
2.880
.535
2.465
.049
.053
14.149
x3
12.447
10.569
.277
1.178
.284
-13.415
38.310
a.因变量:
y
由上表数据可知:
自变量x1,x2,x3对应P值为P1=0.100,P2=0.049,P3=0.284,从定性分析看,x2通过了显著性检验,x3的P值最大,明显未通过显著性检验,说明x3居民非商品支出对货运总量的影响是最小的。
(6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的显著性检验和回归系数的显著性检验。
解:
将x3剔除后,用y与x1,x2作回归,计算结果如图:
模型汇总b
模型
R
R方
调整R方
标准估计的误差
1
.872a
.761
.692
24.081
a.预测变量:
(常量),x2,x1。
b.因变量:
y
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
12893.199
2
6446.600
11.117
.007a
残差
4059.301
7
579.900
总计
16952.500
9
a.预测变量:
(常量),x2,x1。
b.因变量:
y
系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
B
标准误差
试用版
下限
上限
1
(常量)
-459.624
153.058
-3.003
.020
-821.547
-97.700
x1
4.676
1.816
.479
2.575
.037
.381
8.970
x2
8.971
2.468
.676
3.634
.008
3.134
14.808
a.因变量:
y
剔除x3后的回归方程为:
=4.676x1+8.971x2-459.624
回归方程的显著性检验:
此时的F=11.117,P=0.007,表明回归方程高度显著,说明x1,x2整体上对y有高度的线性影响。
回归系数的显著性检验:
剔除x3后,其余自变量的显著性都发生了不同程度的变化,这是由于自变量之间的相关性造成的,此时P1=0.037,P2=0.008,说明自变量都已显著,都通过了显著性检验。
⑺求出每一个回归系数的置信水平为95%的置信区间;
β1置信区间为(0.381,8.970)
β2的置信区间为(3.134,14.808)
⑻求标准化回归方程;
解:
⑼求当
=75,
=42,
=3.1时的
,给定置信水平为95%,用spss软件计算精确置信区间,用手工计算近似预测区间。
货运总量y(万吨)
工业总产值x1亿元
农业总产值x1亿元
居民非商品支出x3(亿元)
PRE
LICI
UICI
160
70
35
1.0
181.6541
114.1804
249.1279
260
75
40
2.4
249.8871
186.7191
313.0551
210
65
40
2.0
203.1308
139.2701
266.9915
265
74
42
3.0
263.1534
200.9208
325.3859
240
72
38
1.2
217.9183
155.9556
279.8809
220
68
45
1.5
262.0125
195.3407
328.6842
275
78
42
4.0
281.8559
213.4631
350.2487
160
66
36
2.0
171.9226
105.138
238.7071
275
70
44
3.2
262.3928
199.0204
325.7651
250
65
42
3.0
221.0727
156.1113
286.0341
75
42
3.1
267.829
204.4355
331.2225
从上面的数据可知:
,精确置信区间为(204.4355,331.2225),由前面问题6的表得;
手工计算进似预测区间为即(219.667,315.991)
⑽结合回归方程对问题做一些基本分析。
解:
回归方程:
从这个回归方程
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 回归 实验 报告