整理多项分类Logistic回归分析的功能与意义.docx
- 文档编号:11286668
- 上传时间:2023-02-26
- 格式:DOCX
- 页数:54
- 大小:1.72MB
整理多项分类Logistic回归分析的功能与意义.docx
《整理多项分类Logistic回归分析的功能与意义.docx》由会员分享,可在线阅读,更多相关《整理多项分类Logistic回归分析的功能与意义.docx(54页珍藏版)》请在冰豆网上搜索。
整理多项分类Logistic回归分析的功能与意义
比如职业、婚姻情况等等,这时需要用其它回归分析方法来进行
多项分类Logistic回归分析的功能与意义我们经常会遇到因变量有多个取值而且无大小顺序的情况,一般的线性回归分析无法准确地刻画变量之间的因果关系,拟合模型。
SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。
例子:
下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。
试用多项分类
Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2
代表女性)之间的关系。
~
山东省某中学20名学生视力监测结果数据
编号
视力低下程度
性别
年龄
1
1
1
15
2
1
1
15
3
2
1
14
4
2
2
16
5
3
2
16
6
3
2
17
7
2
2
17
8
2
1
18
9
1
1
14
10
3
2
18
11
1
1
17
12
1
2
17
13
1
1
15
14
2
1
18
15
1
2
15
16
1
2
15
17
3
2
17
18
1
1
15
19
1
1
15
20
2
2
16
视力低下程度”
2、选择进行Logistic回归的变量。
如下图所示对话框左侧的列表中,选中
并单击向右的箭头按钮使之进入因变量”列表框,选择性别”使之进入因子”列表框,选择「年龄”使之进入协变量”列表框。
因子(D:
小性别
[龜耆奠别迥K.I
选顶C2L.
保存伙)…
Boctstrap(BL.
6.jpg(38.14KB,下载次数:
47)
下载附件
2012-8-1323:
20上传
3、其它设置使用系统默认设置即可。
4、设置完毕,单击确定”按钮,等待输出结果。
模型拟合信息
似然比检验
模型拟合
标准
模型
Cox和
Snell
.499
Nagelkerke
.572
McFadden
.336
伪
R方
似然比检验
效应
模型拟合标准
简化后的模型的-2倍对数似
然值
似然比检验
卡方
df
显著水平
截距
18.804
.000
0
年龄
25.442
6.638
2
.036
性别
25.306
6.502
2
.039
参数估计
听力低下程度a
B
标准误
Wald
df
显著水
Exp(B)
Exp(B)
的置信区间95%
平
下限
上限
截距
34.338
19.553
3.084
1
.079
年龄
-2.112
1.181
3.197
1
.074
.121
.012
1.225
1
[性别
=1]
21.272
1.183
323.095
1
.000
1.731E+09
1.702E+08
1.761E+10
[性别
=2]
0
0
截距
20.974
19.066
1.210
1
.271
年龄
-1.277
1.141
1.251
1
.263
.279
.030
2.613
2
[性别
=1]
20.540
.000
1
8.321E+08
8.321E+08
8.321E+08
[性别
0
0
=2]
缺1
'栽育
1工龄一
tit
收入
I负愤*
—-—]
佶用卡fisd
违的i.
41
3
12
17500
9.30
1136'!
!
501
1
2了
1
10:
G
3100
17.30
136
400
m
40
1
||
U
eS.OO'
&罚
.86:
I2.17
0
41
1
15"
14
12000
2.90
2&&I
132
0
24
2\2',!
0
2300
11730
179:
i306,
1
41
2:
1£"
16
5
25.00
1C.20
.期
i2.1G
0
39
11
1鈿
g
67.00
3C.60
3,83
I
16.67
I
0
43
1
1胡
11
3300
3.60
-13'
'124
6
34
1!
1H
1f
4
n'.'OO
^4.40
1136
3.3S
1
36
1
1C"
13
25.00
19.70
278
1
'2.15
1
0
27
II
1Oil
1
1500
U'O
_16,
I
1。
吁
O'
25
1
屮
0
2300
520
.25
_94
0
52
1
24!
14
64.00
10.00
3'?
93
2.47
0
37
11
!
6
9
2900
16.30
1.72:
:
3.01
0
4S
1
122"
15
10900
9101
370
1£_4i0i
0
五
2
■9'!
!
G
4900
S.GO
.03"
'3.401
1
36
2
'13
II
&
4100
16.40
2.921
13.31
1
43
1
'23;
19
7200
7.eo
1ib!
;423
0
Logistic
700个申请贷款的客户,
“0表示没有拖欠贷款,
还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示:
我们需要进行随机抽样,来进行二元
“1”示拖欠贷款,接下来,步骤如下:
上面的数据是大约回归分析,上图中的
1:
设置随机抽样的随机种子,如下图所示:
岂前活动生咸需;黠容SPSS12(S>
;活动主成盟可现用幷可淇将来遽用-n
丄慕些适程具有內部殖机數字生咸器-琴问帮助获導完整列義。
[踊走]I粘贴0)I蛊置®I]取消j[诽助
选择设置起点”选择固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、
生成一个变量(validate),进入如下界面:
目祐責量口vahdate
2:
进行转换”—十算变量
數宇表达式匡):
RV.BERNOULLKO.|7)
&年踴【年顒]
护当前雇右工作年限[…於当箭地址居性年限[...矽寡底收入(干元)[…
&负債收入比車CK100..捞信用卡员俵(千元)於具他罚债(干元)[宀
<-
至部
CDF石非中心CC
当前0期时间
日期运篦
B期釧舜
画散和特殊裳量囚
Pdf?
Veil?
uil
Range
R.eplace(3)
Replace(4)
Rnd⑴
Rnd⑵
Rnd⑶
Rtrim⑴
RtrimCZ)
ft*
|L_
在数字表达式中,输入公式:
rv.bernoulli
的bernoulli分布随机值
如果在0.7的概率下能够成功,那么就为
为了保持数据分析的有效性,对于样本中缺失值,所以,需要设置一个选择条件”
点击如果”按钮,进入如下界面:
(0.7),这个表达式的意思为:
返回概率为0.71,失败的话,就为"0"
违约"变量取缺失值的部分,validate变量也取
年辭1怦[教育]g方工作鞭[..
!
!
址居住年限{...kA(千元)匚文入比率(xTOO.
P员债〔千元)...i债(千元)[-i经违约陡的J
O包e所育冲■義色
@如異个累満足奏件则包括疋』:
MISSING強的丘D
、
J—
DS
*乂2
3
45
—_\J
6
1
J
lUJI
3
—
■
丿k—
删除
>
卢1_rlL-■■<-rk□□□□
±iE
算术
CDF与非中心CDF
转换
当前日期•时间
日期运篦
曰期创建
函数也特殊变量应:
MISSIMGCvanable)*邀辐请*如黑娈呈鼻有系统皺失値我用芦缺矣it、Ri腿回1或true0参数应为活动數据集中的变量名-
LrgammaLower
LtdrriCI)
Ltrimf2)
Maz
MblenBytekTearrvfedian
Minr^/fisslng
如果违约”变量中,确实存在缺失值,那么当使用"missing”函数的时候,它的返回值应该为
“或者为“true"为了剔除”缺失值所以,结果必须等于“0也就是不存在缺失值的现象点击”继续按钮,返回原界面,如下所示:
-区
护年龄[年副dJ教育水平[教吉I少当前雇方工作年陨1“/当前地址S住年限J®彖庭收入(千丘)I-3負债收入岀率mg“炉信用卡负债(千元)...於其他城億(千元)J
I金:
;是百曾妊违妁违约]
-块曲
方法
年龄
工龄
Ifc址
收入
[向前:
LR
下一議即〕
validal&=1
选择娈量迴):
确定]牯贴(巳I重置屋”{取渭
帮助
将是是否曾经违约”作为因变量”拖入因变量选框,分别将其他8个变量拖入协变量”选
框内,在方法中,选择:
forward.LR方法
将生成的新变量“validate"拖入"选择变量框内,并点击”规则设置相应的规则内容,如下
设置validate值为1,此处我们只将取值为1的记录纳入模型建立过程,其它值(例如:
0)
将用来做结论的验证或者预测分析,当然你可以反推,采用0作为取值记录
点击继续,返回,再点击分类”按钮,进入如下页面
在所有的8个自变量中,只有教育水平”这个变量能够作为分类协变量”因为其它变量都没有做分类,本例中,教育水平分为:
初中,高中,大专,本科,研究生等等,参考类别
选择:
最后一个”在对比中选择指示符”点击继续按钮,返回
再点击一保存”按钮,进入界面:
「将按型信息输出列JX恫L文件
a包含协方差趣阵®
單助J
在预测值"中选择”概率,在影响”中选择“Coo距离”在残差”中选择学生化”点击继续,返回,再点击选项”按钮,进入如下界面:
:
颈计蚤和圈
V窘娄圄〔£)
V旦osmer-LemGshowJfei-^度卜》
个案的觀走刊a®
心九莓菱蚤P
「输岀—
I◎;在每个歩骡中佢)◎在最宕一个歩蝶中丄)
□fe计値的相关性胆》
迭畑更记录①
□迎卩【日;的C((xxU
厂步送槪率
进入职/Io.05删隱WIo.10
分类标准値电y
最大迭代次敎®)1
I7I龙棋型中包括常数(即
[竝禦][取浦][诽朗
分析结果如下:
案例咫理汇总
未力041^的案例丄
百分比
逵定案例包括在分析中
1S9
57.5
攪失案例
0
.0
总计
489
57.5
未选定的案例
361
42,5
950
100.0
蠶煤^炷有奴>谄蚩见°类丟翦Mg案例总
诩罚直
肉咅Ei值
否
0
是
1
芬奘蛮量翥码
频率
(1)
⑷
教官水平未完成高中
263
1.000
.050
.000
.500
高中
134
ODD
1.000
.000
.000
58
.OCO
010
1D00
.000
大学
25
OCO
.0(50
.000
1.000
硏究生
3
.000
.050
.000
.000
1:
在案例处理汇总”中可以看出:
选定的案例489个,未选定的案例361个,这个结果是
根据设定的validate=1得到的,在因变量编码”中可以看出违约”的两种结果是”或者否”分别用值“1和“0弋替,在分类变量编码”中教育水平分为5类,如果选中为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为1,未选中的为0,如果四个都未被
选中,那么就是"研究生“频率分别代表了处在某个教育水平的个数,总和应该为489个
已祯测
是否曾经违釣
是否曾S违约
已观测
否
是
百分比校正
否
昱
百好比梭正
歩骤0是否曾轻违妁
总计百分比
是
360
129
0
0
100.D
.0
73.6
157
54
□
0
W0.D
c
74.4
乩已选定的案例validateEGI1
匕.耒选定的案例validateNE1
C由于自变量中有缺矢値・或芬类变量中的値超岀选定秦例的范围,所巖未吋某些未定的案例进行分饕*d模型中包牯常量。
e切剖値知.501
方程中的娈量
B
S.E.
Wais
df
Sig.
Exp(B)
栉骤D常量
-1.Q26
.103
100029
1
COO
.358
1
否”(未违约)有129个是是”(违约)
常数项”记性赋值,B为-1.026,标准误差
:
在分类表”中可以看出:
预测有360个是
2:
在方程中的变量”表中可以看出:
最初是对
为:
0.103
跟表中的“100.029几乎接近,是因为我
那么wald=(B/S.E)2=(-1.026/0.103)2=99.2248,
对数据进行的向下舍入的关系,所以数据会稍微偏小,
B和Exp(B)是对数关系,将B进行对数抓换后,可以得到:
Exp(B)=e^-1.026=0.358,
中自由度为1,sig为0.000,非常显著
導分
di
Sig.
7.460
1
.006
敎肓
E.934
4
.oei
敎育⑴
6.0S5
1
.014
敎育⑵
1.145
1
.266
敎盲⑶
2224
1
.ne
敎育⑷
3.516
1
.113
36.746
1
.000
地址
a.asG
1
.002
肢入
1.107
1
.2Q3
负值率
76.418
1
.000
信用卡员债
35,325
1
-000
其他负儀
12.G31
1
.000
1
U7.557
11
.ODD
焙賤D变量
蔥境计量
1:
从不在方程中的变量”可以看出,最初模型,只有常数项”被纳入了模型,其它变量都
不在最初模型内
表中分别给出了,得分,df,Sig三个值,而其中得分(Score)计算公式如下:
03-刃F
$9©-——.
代1-刃壬(耳-刃
7^
(公式中(Xi-X一少了一个平方)
下面来举例说明这个计算过程:
(年龄”自变量的得分为例)
从分类表”中可以看出:
有129人违约,违约记为“1”则违约总和为129,选定案例
总和为489
那么:
y"=129/489=0.2638036809816
x-=16951/489=34.664621676892
所以:
刀(X-X-)2=30074.9979
y(1-y)=0.2638036809816*(1-0.2638036809816)=0.19421129888216
则:
y"(1-y")*刀(X-x-)2=0.19421129888216*30074.9979=5840.9044060372则:
[刀Xi(yi-y)]人2=43570.8
所以:
■
[二山-刃?
$9®=—=——;
代1—7)工(耳-壬)
=43570.8/5840.9044060372=
7.4595982010876=7.46(四舍五入)计算过程采用的是在EXCEL里面计算出来的,截图如下所示:
A
E
c1
D
EKG
23
136.0633999
0
-6.06Y48
27
53,7461254:
5
0
-T,1227
34
0.441721973
0
-9.96933
35
0・1L2478S2
1
25.76SS7
24
113.734:
1555
0
-6.33129
48
177.8S23L5
0
-12.S626
26
75*0756635
0
-6.8589
30
21.758S9539
1
22.09589
36
1.785235265
0
-9.49£95
21
136.7213856
0
-5.533S3
34
0.4=41721973
0
-3.96933
35
(111247862
1
25,76587
35
厲11217852
0
-9.23313
34
0.i4:
1721973
1
25.03067
33
2.770965327
0
-3.70552
30
21.75869539
0
-7.91411
24
113.7341555
0
-6.33129
47
152.1615534
0
-12.398S
53
336.18S0993
1
39.0184
22
150.392G122
0
-b.8036S
36
L78S235266
1
26.50307
29
32.08793874
0
-7.65031
33
2.77096532?
0
-3.70552
45
106,8200451
0
-11.9712
16951
9979£0,263804
««.、>—r-—rZ..tJItt11««
43570.8
1
从不在万程的变量中
"可以看出,年龄的
得分”
为7.46,刚好跟计算结果吻合!
!
答案得到
Al'=(A436-AVE;RA&E1:
A$439))*2
B^es
验证~!
!
!
!
块仁方法=向前步进(似然比)
摸型系讖的^^合检脸
咔有
df
Sig.
歩骤1歩骤
74052
1
.000
快
74.052
1
.000
74052
1
.000
步骡2歩骤
44侍畦
1
.000
典
110.595
2
.000
119.595
2
.000
步骡3歩骤
43.S13
1
快
1S9.414
3
.000
158.414
3
.000
步骤4寿骡
3G77
1
.002
焕
179.091
4
.000
模型
178.091
4
.000
摸型汇总
步琥
-2射数似S値
Cox&SnellR
N旳el男『畑R
1
490.252^
.141
JOS
2
d45709^
.315
.JI5
3
.201
.425
4
306213^
.305
.446
S1個为参數估计的更改范圉小于001,所以佑计在迭代农数4处捋止=
Qg知纳古计的更改范圉小于.001,所以估计在送
模型系数的综合检验”表中可以卡方值越来越大,说明模型
Hl,k-rnrn.fi匚卜iM-q丄卄}■+
1:
从块1”中可以看出:
采用的是:
向前步进的方法,在看出:
所有的SIG几乎都为“0”而且随着模型的逐渐步进,越来越显著,在第4步后,终止,
公式为:
=CHIINV(显著性值,
根据设定的显著性值和自由度,可以算出卡方临界值,
自由度),放入excel就可以得到结果
2:
在模型汇总中可以看出:
Cox&SnellR方和NagelkerkeR方拟合效果都不太理想,最终理想模型也才:
0.305和0.446,
最大似然平方的对数值都比较大,明显是显著的
iIh;M/Wh订「朮斗)寸
似然数对数计算公式为:
计算过程太费时间了,我就不举例说明计算过程了
Cox&SnellR方的计算值是根据:
1:
先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0
数项”的检验)
2:
再拟合包含待检验因素的
的检验)
Logistic模型,求新的对数似然函数值InLB
(指只包含常
(包含自变量
再根据公式:
Hosmer和Lemestiow捡脸
歩骤
卡芳
Of
Sig.
1
7.567
0
.47?
2
5.341
S
.721
3
3.312
'8'
.013
4
11.Q1S
8
.155
即可算出:
Cox&SnellR
方的值!
昙否曾绘违妁二否
是否曾经违的二昙
总计
已观测
期望値
己观测
期望値
1
44
44.388
5
4612
43
1
45
43.344
4
5.B5E
49
3
41
41.407
T
6.513
40
+
37
4C.520
11
7.400
4&
5
45
40.201
4
S.799
49
S
39
S7.60I7
9
10.393
48
T
33
35.142
15
12853
4&
a
33
315'90
16
1S.410
49
a
24
27.317
25
31.7S3
49
10
19
17.506
33
34494
52
1
43
47.541
1
1453
斗g
2
45
46.044
3
2.gse
49
3
45
44.258
4
47J2
49
4
42
42.494
7
e50S
43
5
33
40.385
11
9.ei5
49
应
35
37.355
U
111J5
48
7
J3
34.930
11
14170
43
a
躬
30.562
U
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 整理 多项 分类 Logistic 回归 分析 功能 意义