第十四章生存分析的SAS实现Word文件下载.docx
- 文档编号:19523729
- 上传时间:2023-01-07
- 格式:DOCX
- 页数:17
- 大小:100.77KB
第十四章生存分析的SAS实现Word文件下载.docx
《第十四章生存分析的SAS实现Word文件下载.docx》由会员分享,可在线阅读,更多相关《第十四章生存分析的SAS实现Word文件下载.docx(17页珍藏版)》请在冰豆网上搜索。
335.000*...81
346.000*...80
NOTE:
Themarkedsurvivaltimesarecensoredobservations.
SummaryStatisticsforTimeVariablet
QuartileEstimates
Point95%ConfidenceInterval
PercentEstimate[LowerUpper)
75...
50.94.000.
2542.00032.000.
MeanStandardError
181.70124.497
Themeansurvivaltimeanditsstandarderrorwereunderestimatedbecausethelargest
observationwascensoredandtheestimationwasrestrictedtothelargesteventtime
SummaryoftheNumberofCensoredandUncensoredValues
Percent
TotalFailedCensoredCensored
1981157.89
SAS软件输出结果解释
该结果包含四个部分:
第一部分用乘积极限法估计了生存率(Survival),死亡率(Failure),生存率的标准误(SurvivalStandardError),死亡例数(NumberFailed)和该时间点前的生存例数(NumberLeft)。
其中带有*号的表示截尾;
第二部分给出了关于生存时间的描述性统计量,包括75%,50%和25%分位数以及相应的95%的可信区间(95%ConfidenceInterval),还有均数(Mean)和标准误(StandardError)从结果可以看出平均生存时间为181.701天;
第三部分列出了完全数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(PercentCensored)。
最后是生存曲线图。
教材中的说明
现用Kaplan-Meier法计算生存率,步骤如下:
(1)将所有生存时间按从小到大顺序排列(见表14-2第
(2)列)并标上序号(第
(1)列)。
(2)列出各t时点前的存活病例数n(第(3)列)、各个时间点的死亡人数d(第(4)列)和截尾人数c(第(5)列)。
(3)计算各t时刻的死亡概率
(第(6)列)。
例如生存时间为32天时,死亡概率为
。
(4)计算各t时刻的生存概率
(第(7)列)。
例如生存时间为32天时,生存概率为
(5)计算各t时刻的生存率
(第(8)列)。
例如生存时间为32天时,生存率为
,由此验证了在没有截尾数据的情况下,式(14-4)与式(14-5)是相同的。
(6)以时间t为横指标,生存率为纵指标,作生存曲线图(图14-1)。
表14-2Kaplan-Meier法计算生存率的计算用表
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
序号
生存
天数
t时刻前
的例数n
t时刻
死亡数d
t时刻后
截尾人数c
死亡
概率q
概率p
生存率
S(t)
1
6
19
0.052632
0.947368
2
18
0.055556
0.944444
0.894737
3
32
17
0.058824
0.941176
0.842105
4
42
16
0.125000
0.875000
0.736842
43
14
0.000000
1.000000
7
94
13
0.076923
0.923077
0.680162
8
126
12
9
169
11
10
207
0.100000
0.900000
0.612146
211
227
253
0.142857
0.857143
0.524696
255
15
270
5
310
316
335
346
图14-1例14-2的生存曲线图
例14-3下面是来自于Berkson&
Gage(1950)的一个研究队列。
为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。
共有374名患者进入研究队列。
表14-3寿命表法计算生存率的计算用表
(9)
术后生存
年数
期初观察
例数
期内
期内截尾
人数
校正期初
概率
t
n
d
c
nc=n-c/2
q=d/nc
p=1-q
0~
374
90
0.2406
0.7594
1~
284
76
0.2676
0.7324
0.5561
2~
208
51
0.2452
0.7548
0.4198
3~
157
25
151
0.1656
0.8344
0.3503
4~
120
20
117.5
0.1702
0.8298
0.2907
5~
95
90.5
0.0773
0.9227
0.2682
6~
79
74.5
0.0537
0.9463
0.2538
7~
66
64.5
0.0155
0.9845
0.2498
8~
62
59.5
0.0504
0.9496
0.2372
9~
54
51.5
0.0388
0.9612
0.2280
10+
47
21
26
34
0.6176
0.3824
0.0872
datach14_3;
doc=0to1;
定义截尾变量
doi=1to11;
inputtf@@;
输入时间变量和频数变量
output;
end;
09017625132542057647183921021
0010203124559697385951026
proclifetestdata=ch14_3利用lifetest过程进行生存分析
method=lifewidth=1plots=(s);
采用寿命表法并作生存函数图
timet*c
(1);
freqf;
指定频数变量
TheLIFETESTProcedure
LifeTableSurvivalEstimates
Conditional
EffectiveConditionalProbability
IntervalNumberNumberSampleProbabilityStandard
[Lower,Upper)FailedCensoredSizeofFailureErrorSurvivalFailure
01900374.00.24060.02211.00000
12760284.00.26760.02630.75940.2406
23510208.00.24520.02980.55610.4439
342512151.00.16560.03020.41980.5802
45205117.50.17020.03470.35030.6497
567990.50.07730.02810.29070.7093
674974.50.05370.02610.26820.7318
781364.50.01550.01540.25380.7462
893559.50.05040.02840.24980.7502
9102551.50.03880.02690.23720.7628
10.212634.00.61760.08330.22800.7720
EvaluatedattheMidpointoftheInterval
SurvivalMedianMedianPDFHazard
IntervalStandardResidualStandardStandardStandard
[Lower,Upper)ErrorLifetimeErrorPDFErrorHazardError
0102.41180.18960.24060.02210.2735560.028564
120.02212.57710.32420.20320.02080.3089430.035013
230.02573.55990.85760.13640.01770.2794520.038747
340.0255..0.06950.01340.1805050.035954
450.0248..0.05960.01290.1860470.041421
560.0239..0.02250.008370.080460.030386
670.0235..0.01440.007120.0551720.027576
780.0233..0.003930.003920.0156250.015625
890.0233..0.01260.007180.0517240.029853
9100.0232..0.009210.006450.0396040.027999
10.0.0232......
SummaryoftheNumberofCensoredandUncensoredValues
Percent
TotalFailedCensoredCensored
3743007419.79
Therewere3observationswithmissingvalues,negativetimevaluesorfrequencyvalues
lessthan1.
本例结果主要包含三个部分:
第一部分给出了时间区间的下限和上限,死亡例数(NumberFailed),截尾例数(NumberCensored),期初观察人数(EffectiveSampleSize),生存率(Survival),死亡率(Failure),生存率的标准误(SurvivalStandardError)等;
第二部分列出了完整数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(PercentCensored)。
根据表14-3的生存率估计,则以生存时间为横坐标,生存率为纵坐标,各个点的生存率用折线连接,构成寿命表法的生存率曲线(图14-2)。
图14-2例14-3的生存曲线图
生存率估计同样存在抽样误差,往往需要估计标准误和95%可信区间。
对于上述两种生存率计算方法均可以用Greenwood(1926)提出方法计算标准误
(14-6)
例如3~4年这一段的生存率的标准误为:
Kalbfleisch&
Prentice,1980提出对生存率进行
转换后估计生存率的95%可信区间可以保证可信区间的范围在(0,1)内,所以被广泛使用,具体计算公式如下:
,其中
(14-7)
例如对于3~4年这一组段的95%可信区间计算为
,则95%可信区间为
两种方法的比较:
①.寿命表法适用于大样本或无法准确得知研究结果出现时间的资料,Kaplan-Meier法可以用于小样本,也可以用于大样本,但要求每个观察对象都有确切的死亡时间和截尾时间。
②.寿命表法是按照指定的时段来分段,估计的是时间区间右端点上的生存率;
Kaplan-Meier法是根据死亡时点分段,逐个估计死亡时点的生存率。
③.寿命表法没有确切的死亡时间和失访时间,假定在每个时间段中的“死亡发生时间”和“失访发生的时间”分别呈均匀分布,因此在每个时间段中的生存率呈线性变化,故各个组段间的生存率用直线相连接,Kaplan-Meier法的生存曲线是右连续的阶梯型曲线。
当样本量较大及死亡时点较多时,阶梯形就不明显了。
例14-4在例14-3中介绍了McKelveyetal收集了19名3期淋巴瘤病人的生存资料,该研究者还同时收集了4期淋巴瘤病人的生存数据共61例:
4,6,10,11,11,11,13,17,20,20,21,22,24,24,29,30,30,31,33,34,35,39,40,41+,43+,45,46,50,56,61+,61+,63,68,82,85,88,89,90,93,104,110,134,137,160+,169,171,173,175,184,201,222,235+,247+,260+,284+,290+,291+,302+,304+,341+,345+。
要比较3期淋巴瘤患者和4期淋巴瘤患者的生存率是否有差异。
datach14_4;
doc=1to2;
定义分组变量
inputn;
输入每组观察次数
doi=1ton;
inputtimecensor@@;
输入时间变量和截尾变量
61191321421421
43094112601690
2071211022702531
2550270031003160
33503460
61
4161101111111
111131171201201
211221241241291
301301311331341
351391401410430
451461501561610
610631681821851
8818919019311041
1101134113711600
1691171117311751
1841201122212350
2470260028402900
29103020304034103450
利用lifetest过程进行生存分析
timetime*censor(0);
指定时间变量和截尾变量
stratac;
指定分层变量
TestingHomogeneityofSurvivalCurvesfortimeoverStrata
RankStatistics
cLog-RankWilcoxon
1-8.6870-396.00
28.6870396.00
CovarianceMatrixfortheLog-RankStatistics
c12
111.2471-11.2471
2-11.247111.2471
CovarianceMatrixfortheWilcoxonStatistics
130749.5-30749.5
2-30749.530749.5
TestofEqualityoverStrata
Pr>
TestChi-SquareDFChi-Square
Log-Rank6.709710.0096
Wilcoxon5.099810.0239
-2Log(LR)10.173510.0014
这里只给出了两个(c=1,2)总体生存率之间是否有差异的检验结果,其他的输出结果与前面类似,不再列出了。
由结果可以发现两组的Log-Rank秩统计量分别为-8.6870和8.6870,检验的
统计量为6.7097,p值=0.0096,所以在=0.05水准上,拒绝H0,接受H1。
,可认为两个(c=1,2)总体生存率之间存在差异。
图形为两个样本的生存曲线图。
由于检验统计量
P<
0.05,所以在=0.05水准上,拒绝H0,接受H1。
基于两个样本的生存曲线图,可认为3期淋巴瘤病人人群的生存率高于4期淋巴瘤病人人群的生存率。
图14-53期和4期淋巴瘤的病人生存曲线
Logrank检验是一种非参数的检验方法,对资料的分布基本没有要求,但要求每组均含有失效事件发生的观察对象资料,可以证明:
Logrank检验的检验效能仅与发生失效事件的人数有关。
另外在Logrank检验的时候,一般要求各组生存曲线不能交叉,否则需采用分段分析或者采用多因素方法来分析。
例14-5某医生研究手术是否可以延长晚期胰腺癌患者的生存期。
收集到符合入组条件的80名保守治疗和124名手术治疗的晚期胰腺癌患者,这些患者的生存资料如表14-6所示,请分析两种治疗方案的生存情况。
表14-6204名晚期胰腺癌患者的生存资料(生存时间的单位为天)
保守
治疗组
生存时间
35
40
45
55
75
死亡人数
失访人数
手术
46
63
65
67
24
datach14_5;
dog=1to2;
定义分层变量
输入每层观察次数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十四 生存 分析 SAS 实现