06分类资料的统计方法.docx
- 文档编号:20688069
- 上传时间:2023-04-25
- 格式:DOCX
- 页数:24
- 大小:63.70KB
06分类资料的统计方法.docx
《06分类资料的统计方法.docx》由会员分享,可在线阅读,更多相关《06分类资料的统计方法.docx(24页珍藏版)》请在冰豆网上搜索。
06分类资料的统计方法
`第六章节分类资料的统计方法
6.1分类资料统计描述与统计推断简介
6.2χ2检验的应用及SAS程序
6.2.1完全随机设计四格表资料的χ2检验
1.例6.1在二乙基亚硝胺诱发大白鼠鼻咽癌的实验中,一组单纯用亚硝胺向鼻腔滴注(鼻滴组),另一组在鼻注基础上加肌注维生素B12,结果见表6.1,问两组发癌率有无差别?
表6.1两组大白鼠发癌率的比较
处理
发癌鼠数
未发癌鼠数
合计
发癌率(%)
鼻注组
52(a)
19(b)
71(n1)
73.24
鼻注+VitB12组
39(c)
3(d)
42(n0)
92.86
合计
91(m1)
22(m0)
113(N)
80.53
2.分析:
3.SAS程序:
dataexam6_1;
inputrcf@@;
cards;
11521219
2139223
;
procfreq;
weightf;
tablesr*c/chisq;
run;
4.解释:
TABLEOFRBYC
RC
Frequency*
Percent*
RowPct*
ColPct*1*2*Total
——————————————
1*52*19*71
*46.02*16.81*62.83
*73.24*26.76*
*57.14*86.36*
——————————————
2*39*3*42
*34.51*2.65*37.17
*92.86*7.14*
*42.86*13.64*
——————————————
Total9122113
80.5319.47100.00
STATISTICSFORTABLEOFRBYC
StatisticDFValueProb
———————————————————————————
Chi-Square16.4780.011
LikelihoodRatioChi-Square17.3100.007
ContinuityAdj.Chi-Square15.2870.021
Mantel-HaenszelChi-Square16.4200.011
Fisher'sExactTest(Left)8.26E-03
(Right)0.999
(2-Tail)0.013
PhiCoefficient-0.239
ContingencyCoefficient0.233
Cramer'sV-0.239
SampleSize=113
Karlpearsonχ2p=
∑
适用于自由度df>1或df=1而n>40T>5的资料
Yatescontinouscorrectionχ2=
χp2不是连续分布,因而在自由度为1,1〈T〈5时,要进行校正。
Likelihoodχ2L=2∑Ailn(Ai/Ti)当观察例数较多时χ2L
χ2p
Mantel-Heazel
当理论频数T〈1或n〈40可采用精确概率法(exactprobability)
本例χp2=6.478P=0.011在α=0.05水平上拒绝H0,认为两组发癌率有差别,增加肌注VitB12有可能提高大白鼠的鼻咽癌发生率。
4.PROCFREQ基本格式和选项的主要内容:
FROCFREQoptions;
TABLESrequests/options;
WEIGHTvariable;
BYvariables;
FREQ过程产生一维至n维的频数表和列联表。
对于二维表,procfreq计算统计量并给出检验,对n维表,procfreq作分层分析。
1)procFREQ语句:
选项有:
DATA=SAS数据集
order=DATA按输入数据集中的顺序排列
order=freq按频数下降的次序排列
order=internal按值的内部表示排列
order=fromated按外部的格式值排列
2)TABLES语句:
1request请求式,有如下表示:
TABLESA;一维表
TABLESA*B;二维表
TABLES(A-C)*d等同于TABLESA*dB*dC*d;
TABLESA*B*C;多维表
/options选项有:
2一般选择项out=SAS数据集
3统计分析选择项:
chisq:
计算前述四种χ2统计量及相关的系数,对于2×2表给出Fisher精确检验
exact:
请求对大于2×2表进行Fisher精确检验
expected:
打印各格的期望频数
CMH:
要求Cochran-Mantel-Haenszel统计量,该统计量对行变量和列变量之间的关联进行检验,对2×2表,给出病例对照和队列研究的OR、RR、可信区间及齐性Breslow检验
All:
要求CHISQ及CMH所要求的一切
Scores=RANK|TABLE|RIDIT|MODRIDIT|为Cochran-Mantel-Haenszel统计量及pearson相关所用的行及列计分指定类型。
6.2.2行×列表资料的χ2检验
1.双向无序列联表资料,即行变量和列变量均为无序的名义变量;
1)例6.21979年某地爆发松毛虫病,333例患者按年龄以14岁为界分为二组,资料见表6.2,试考察两组病人病变类型的构成比有无差别:
表6.2某地两组松毛虫病患者型别构成比较
年龄组
皮炎型
骨关节炎型
软组织炎型
混合型
合计
儿童组
50
48
18
72
188
成人组
105
10
7
23
145
155
58
25
95
333
2)SAS程序:
dataexam6_2;dor=1to2;doc=1to4;inputf@@;output;end;end;cards;5048187210510723;
procfreq;
weightf;
tablesr*c/chisqcmhnocolnorownopct;
run;
3)结果与解释:
TABLEOFRBYC
RC
Frequency*1*2*3*4*Total
———————————————————————
1*50*48*18*72*188
2*105*10*7*23*145
———————————————————————
Total155582595333
STATISTICSFORTABLEOFRBYCStatisticDFValueProb
———————————————————————————Chi-Square370.1430.001LikelihoodRatioChi-Square373.0040.001Mantel-HaenszelChi-Square145.0740.001PhiCoefficient0.459
ContingencyCoefficient0.417
Cramer'sV0.459
SampleSize=333
SUMMARYSTATISTICSFORRBYC
Cochran-Mantel-HaenszelStatistics(BasedonTableScores)
StatisticAlternativeHypothesisDFValueProb
———————————————————————————————1NonzeroCorrelation145.0740.0012RowMeanScoresDiffer145.0740.0013GeneralAssociation369.9330.001
TotalSampleSize=333
本例属双向无序列联表资料,故χ2p=70.14df=3P=0.001,也可选择CMH中行变量与列变量有一般关联,本例χ2MH=
χ2p
结论:
在α=0.05水准上,可认为两组松毛虫病患者型别构成不同。
Cochran-Mantel-Haenszel统计量有三个,对应的备择假设及针对的资料是:
①行变量与列变量为非零相关,双向有序列联表
②单向列变量为有序变量的列联表
4行变量与列变量有一般关联,双向无序列联表
2.单向有序列联表资料:
1)例6.3下表为两组人员的眼球晶体检查结果,被检查者为接触射线组与对照组,混浊度分为5等,研究的目的是混浊程度与接触射线有无关系:
表6.3两组受检者晶体混浊程度的比较
0
+
++
+++
++++
合计
接触射线组
9
50
54
14
15
142
对照组
9
36
14
12
3
74
合计
18
86
68
26
18
216
2)SAS程序:
dataexam6_3;dor=1to2;doc=1to5;inputf@@;output;
end;
end;
cards;
950541415
93614123
;
procfreqorder=data;
weightf;
tablesr*c/cmhnocolnorownopct;
run;
3)结果和解释
TABLEOFRBYC
RC
Frequency*1*2*3*4*5*Total
———————————————————————————1*9*50*54*14*15*1422*9*36*14*12*3*74———————————————————————————Total1886682618216
SUMMARYSTATISTICSFORRBYC
Cochran-Mantel-HaenszelStatistics(BasedonTableScores)
StatisticAlternativeHypothesisDFValueProb
———————————————————————————————
1NonzeroCorrelation14.4050.036
2RowMeanScoresDiffer14.4050.036
3GeneralAssociation413.8720.008
TotalSampleSize=216
本例程序中使用了order=data确保列变量的水平按输入顺序给以记分,这在等级用字母表示时尤其重要,见例6.4
本例应选择第二行的结果χ2=4.405df=1P=0.036可以认为晶体混浊程度与接触射线与否有关
3.双向有序列联表资料:
1)双向有序且属性不同的列联表:
①例6.4某矿职工医院探讨矽肺不同期次患者的胸部平张肺门密度变化,把492名患者的资料归纳如表6.4,问矽肺患者肺门密度的增加与矽肺的期次有无关系?
表6.4不同期次矽肺患者肺门密度级别分布
矽肺期次
(times)
肺门密度级别Grade
合计
+slight
++mid
+++sever
Ⅰ(first)
43
188
14
245
Ⅱ(second)
1
96
72
169
Ⅲ(third)
6
17
55
78
合计
50
301
141
492
②程序:
dataexam6_4;inputtimes$grade$f@@;cards;firstslight43firstmid188firstsever14secondslight1secondmid96secondsever72
thirdslight6thirdmid17thirdsever55
;
procfreqorder=data;
weightf;
tablestimes*grade/chisqcmhnocolnorownopct;
run;
③结果和解释:
TABLEOFTIMESBYGRADE
TIMESGRADE
Frequency俿light俶id俿ever*Total
——————————————————first*43*188*14*245second*1*96*72*169third*6*17*55*78
———————————————————
Total50301141492
STATISTICSFORTABLEOFTIMESBYGRADE
StatisticDFValueProb
———————————————————————————
Chi-Square4163.0070.001
LikelihoodRatioChi-Square4184.7920.001
Mantel-HaenszelChi-Square1125.5100.001
PhiCoefficient0.576
ContingencyCoefficient0.499
Cramer'sV0.407
SampleSize=492
SUMMARYSTATISTICSFORTIMESBYGRADE
Cochran-Mantel-HaenszelStatistics(BasedonTableScores)
StatisticAlternativeHypothesisDFValueProb———————————————————————————————1NonzeroCorrelation1125.5100.0012RowMeanScoresDiffer2133.0950.001
3GeneralAssociation4162.6760.001
TotalSampleSize=492
程序中Order=data是确保Grade和times的水平按输入顺序给以计分,否则将按字母顺序,造成结果错误!
!
本例χ2CMH=125.510df=1P=0.001而χ2p=163.007df=4P=0.001可以认为肺门密度级别与矽肺期次是相关的,由资料可见,肺门密度级别增加,矽肺期次亦增加。
2)双向有序且属性相同的列联表:
①例6.5应用核素法和对比法检测147例冠心病患者心脏室壁收缩运动的符合情况,结果见表6.5,问这两种方法测定结果是否一致?
表6.5两法检查室壁收缩运动的符合情况
对比法
核素法
合计
正常
减弱
异常
正常
58
2
3
63
减弱
1
42
7
50
异常
8
9
17
34
合计
67
53
27
147
分析:
本例两个分组变量的本质都是“测定结果”,故其专业属性是相同的,并且测定结果的档次划分也是相同的顺序的,即正常、减弱、异常。
对于这种资料,研究者并不是关心两变量之间是否存在相关性,而是这两种方法测定结果的一致性如何,可计算Kappa统计量:
Kappa=(Pa-Pe)/(1-Pe)Pa和Pe分别为实际和期望观察一致的比例
②SAS程序:
dataexam6_5;dor=1to3;doc=1to3;
inputf@@;
output;
end;
end;
cards;
5823
1427
8917
;
procfreq;
weightf;
tablesr*c/agreenocolnorownopct;
run;
③结果与解释:
TABLEOFRBYC
RC
Frequency*1*2*3*Total
——————————————————
1*58*2*3*63
2*1*42*7*50
3*8*9*17*34
——————————————————Total675327147
STATISTICSFORTABLEOFRBYC
TestofSymmetry
----------------
Statistic=2.856DF=3Prob=0.414
KappaCoefficients
StatisticValueASE95%ConfidenceBounds
———————————————————————————SimpleKappa0.6810.0500.5830.779WeightedKappa0.6610.0560.5520.771SampleSize=147
Kappa值有简单计算法(见上式)和加权计算法,本例用上式计算的Kappa值为0.681,95%可信区间为0.583~0.779可认为对比法与核素法检查室壁收缩运动具有一致性。
6.2.3病例—对照和队列研究
1.完全随机设计的病例对照研究:
1)未分层的病例对照研究
①例6.6对发育情况好与差的儿童调查其副食品供给情况,结果见表6.6,试分析副食品供给不同情况对发育的影响:
表6.6发育情况与副食品供给情况
发育情况
副食品供给
合计
充足
不够
好
68(a)
28(b)
96(n1)
差
50(c)
95(d)
145(n0)
计
118(m1)
123(m0)
241(N)
在病例对照调查中,若暴露只有二个水平,那么所得的资料就是一个四格表,见表6.6,对于这种资料,需要对其比数比(相对危险度的一种估计值)是否为1进行检验,若比数比不为1,则计算比数比及其可信区间(以95%CI为例)
计算公式:
=ad/bc
或Woolf法(Logit估计)ORexp(±1.96
)
其中V=varln(OR)=
+
+
+
②SAS程序:
dataexam6_6;
inputrcf@@;
cards;
11681228
21502295
;
procfreq;
weightf;
tablesr*c/allnocolnorownopct;
run;
③结果与解释
TABLEOFRBYC
RC
Frequency*1*2*Total
——————————————
1*68*28*96
2*50*95*145
——————————————Total118123241STATISTICSFORTABLEOFRBYCStatisticDFValueProb
———————————————————————————Chi-Square130.5420.001LikelihoodRatioChi-Square131.2810.001ContinuityAdj.Chi-Square129.1040.001
Mantel-HaenszelChi-Square130.4150.001
Fisher'sExactTest(Left)1.000
(Right)2.46E-08
(2-Tail)4.73E-08
PhiCoefficient0.356
ContingencyCoefficient0.335
Cramer'sV0.356
EstimatesoftheRelativeRisk(Row1/Row2)
95%
TypeofStudyValueConfidenceBounds
———————————————————————————Case-Control4.6142.6428.059
Cohort(Col1Risk)2.0541.5862.660
Cohort(Col2Risk)0.4450.3190.621
SampleSize=241
SUMMARYSTATISTICSFORRBYC
Cochran-Mantel-HaenszelStatistics(BasedonTableScores)
StatisticAlternativeHypothesisDFValueProb
———————————————————————————————1NonzeroCorrelation130.4150.0012RowMeanScoresDiffer130.4150.0013GeneralAssociation130.4150.001
EstimatesoftheCommonRelativeRisk(Row1/Row2)
95%
TypeofStudyMethodValueConfidenceBounds
———————————————————————————————
Case-ControlMantel-Haenszel4.6142.6807.945
(OddsRatio)Logit4.6142.6428.059
CohortMantel-Haenszel2.0541.5902.653
(Col1Risk)Logit2.0541.5862.660
CohortMantel-Haenszel0.4450.3340.594
(Col2Risk)Logit0.4450.3190.621
TheconfidenceboundsfortheM-Hestimatesaretest-based.
本例比数比为4.614Mantel-Haenszel估计的置信区间为2.68~7.9495%说明发育情况与副食品供给是有关系的。
Col1Risk为a/n1与c/n0之比,Col2Risk为b/n1与d/n0之比可信区间计算同前,但TotalSampleSize=241
2)分层的病例对照研究
3)V=var(lnRR)=(1-
)/a+(1-
/c在病例对照研究中,队列的结果没有意义。
1例6.7在婴儿营养和发育关系调查时,分别在月龄为9月、10月
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 06 分类 资料 统计 方法