1、第七章X2检验第七章X2检验第七章X2检验X2(称卡方)检验用途较广,但主要用于检验两个或两个以上样本率或构成比之间差别的显著性,也可检验两类事物之间是否存在一定的关系。一、两个率的比较(一)X2检验的基本公式下页末行的例3.1是两组心肌梗塞病人病死率的比较,见表3.5,其中对照组未用抗凝药。两组病人的病死率不同,抗凝药组为25.33%,对照组为40.8%。造成这种不同的原因可能有两种:一种是仅由抽样误差所致;另一种是两个总体病死率确实有所不同。为了区别这两种情况,应当进行X2检验。其基本步骤如下:1首先将资料写成四格表形式,如表3.6。将每个组的治疗人数分为死亡与生存两部分,各占四格表中的一
2、格,这些数字称为实际频数,符号为A,即实际观察得来的数字。2.建立检验假设为了进行检验,首先作检验假设:两种疗法的两总体病死率相等,为35%(即70/200),记为H0:1=2。即不论用或不用抗凝药,病死率都是35%,所以亦可以换一种说法:病死率与疗法无关。上述假设经过下面步骤的检验后,可以被接受也可以被拒绝。当H0被拒绝时,就意味着接受其对立假设即备择假设H1。此例备择假设为两总体病死率不相等,记为H1:12因为我们观察的是随机现象,所以无论是接受或拒绝H0都冒有一定风险,即存在着错判的可能性。一般要求,当错误地被拒绝的概率不超过一定的数值,如5%(或0.05),此值称为检验水准,记为=0.
3、05。3计算理论频数根据“检验假设”推算出来的频数称理论频数,符号为T。计算方法如下:假设两总体病死率相同,都是35.0%,那么抗凝血组治疗75人,其死亡的理论频数应为7535.0%=26.25人,而生存的理论频数为75-26.25=48.75人。用同样方法可求出对照组的死亡与生存的理论频数,前者为43.75人。后者为81.25人。 然后,把这些理论频数填入相应的实际频数格内,见表3.6括号内数字。计算理论频数也可用下式(3.4)TRC=nRnC/N (3.4)式中,TRC为R行与C列相交格子的理论频数,nR为与计算的理论频数同行的合计数,nC为与该理论频数同列的合计数,N为总例数。例如;表3
4、.6第一行与第一列相交格子的理论频数(T1)为T1 7570/200=26.25用两种方法计算,结果是相同的。4计算2值,计算2值的基本公式为:X2=(A-T)2/t (3.5)式中,A为实际频数,T为理论频数,为求和符号。将表3.6里的实际频数与理论频数代入式(3.5)即求得2值。此例2=4.929。从式3.5中可看出,实际频数与理论频数之差(A-T)愈小,所得的2值就愈小,理论频数是根据检验假设推算出来的,若与实际频数相差不大,说明假设与实际情况符合,于是就接受H0,认为两病死率无显著差别;反之,若(A-T)大,则2值亦大,说明假设与实际不符,就拒绝假设,认为两病死率有差别。但2值大还是小
5、,要有一个比较的标准,要查2值表(附表1),查2值表前先要定自由度。5求自由度自由度是数学上的一个名词。在统计中,几个数据不受任何条件(如统计量,即样本特征数)的限制,几个数据就可以任意指定,称为有几个自由度。若受到P个条件限制,就只有n-p个自由度了。例如在四格表中有四个实际频数,如没有任何条件限制,则4个数字都可任意取值,有4个自由度,当a b,,c d,a c,b d都固定后,在a、b、c、d四个实际频数中,只能有一个频数可任意指定了,因此,四格表的自由度为1。其计算公式为:=(R-1)(C-1) (3.6)式中,为自由度,R为横行数,C为纵列数。四格表有2行和2列(注意:总计与合计栏不
6、算在内)。因此=(2-1)(2-1)=1。6求P值,作结论根据自由度查2值表(附表1)。此表的左侧为自由度,表内数字2值,表的上端P是从同一总体中抽得此样本2值的概率。三者关系是:在同一自由度下,2值越大,从同一总体中抽得此样本的概率P值越小;在同一P值下,自由度越大,2值也越大。2值与概率P呈相反的关系。2检验的常用界值为:20.05 在=0.05水准处接受H0,差别不显著20.0520.01 在=0.05水准处拒绝HO,接受H1,差别显著220.01()P0.01 在=0.01水准处拒绝HO,接受H1,差别显著这里是预定的检验水准。20.05()是当自由度为时与P=0.05相对应的2 值,
7、简称5%点,20.01()是与P=0.01相对应的2 值,简称1%点。当=1时,20.05(1)3.84,20.01(1)=6.63。本例自由度为1,求得2=4.929,介于3.84与6.63之间,或写成20.05(1)2P0.01。在=0.05水准处拒绝H0,接受H1,两总体率不等。对照组的病死率较抗凝血组高。在=0.05水准处拒绝H0,说明若在同样情况下作100次判断,将有5次或不到5次的机会,将原没有差别的两总体率错判为有差别,或说这样判断犯I型错误的概率不超过5%。下面将实例的检验步骤集中列出。例3.1两组心肌梗塞病人的病死率可见于表3.5,其中对照组未用抗凝药。抗凝血组病死率为25.
8、33%,对照组为40.80%,问两组病死率有无显著差别?表3.5两组心肌梗塞病人病死率比较组别治疗人数死亡人数病死率(%)抗凝血组751925.33对 照 组1255140.80总 计2007035.00检验步骤如下:1将资料列成四格表形式,如表3.6。表3.6四格表式样死亡生存合计抗凝血组19(26.25)56(48.75)75对照组51(43.75)74(81.25)125总 计701302002H0:两疗法的总体病死率相同,即1=2H1:两疗法的总体病死率不同,即12=0.053求理论频数抗凝血组:死亡人数为7535.0%=26.25人存活人数为 75-26.25=48.75人对照组:死
9、亡人数为12535.0%=43.75人存活人数为 125-43.75=81.25人把理论频数填入相对应的实际频数格内,见表3.6括号内数字。4求2值 将表3.6里的数值代入式(3.5)得,5求自由度,确定P值,作结论=(2-1)(2-1)=1,2 0.05(1)=3.84,2 0.01(1)=6.63,本例2 =4.929,2 0.05(1)2 P0.01,在=0.05水准处拒绝H0,接受H1,即两总体病死率不等,对照组病死率较抗凝血组高。上例告诉我们,两个样本病死率一大一小,在未作检验之前,很难说它们两总体率是否有差别,为了作出正确判断,作X2检验。先假设两总体病死率相同,推算理论频数,由实
10、际频数与理论频数计算2值,二者相差越大,2值也越大。本例得2=4.929,根据自由度为1时的2 现仍以表3.5资料为例,先写成四格表形式,如表3.8。表3.8四格表求2值专用公式的符号死 亡生存合 计抗凝血组19(a)56(b)75(a b)对照组51(c)74(d)125(c d)70(a c)130(b d)200(N)将实际频数代入式(3.8)得, 这里用专用公式求得的2值与前面用基本公式求得的结果完全不同,有时这两个公式求得的结果小数点后几位可能稍有出入,这是由于受小数四舍五入的影响。前面已介绍了连续性校正公式(3.7),为使运算更为简便,下面列出专用公式的连续性校正公式(3.9),并
11、以表3.8资料代入计算如下:所得结果与式(3.7)求得的一致。二、多个率或多个构成比的比较(一)2K表的专用公式,前面已讨论了,两个率的比较用四格表专用公式计算2值较为简便。如果是多个率比较,就要列成2K表。这里的K暂为所比较的组数,2为每个组内所划分的类型数。求2值时本可用基本公式计算,但以用下列专用公式为便:表3.92K表形式之一a1 a2b1 b2n1 n2aibiN公式中符号的意义参阅表3.9,以上两个公式的计算结果是完全一样的。例3.3 某地观察磺胺三甲氧吡嗪加增效剂(吡嗪磺合剂)预防疟疾复发的效果,用已知有抗疟疾复发效果的乙胺嘧啶和不投药组作对照,比较三组的疟疾复发率,资料如表3.
12、10,问三组复发率有无显著差别?表3.10三个组的疟疾复发率组别观察例数复发例数复发率(%)吡嗪磺合剂 乙胺嘧啶对照1996 47348476 27533.81 5.7110.95合计29531565.282检验步骤如下:1将表3.10资料写成2K表形式,见表3.11。注意:这里必须把各组的观察例数分为复发和未复发两部分,这样表3.10就为写成23表。表3.11三个组疟疾复发率的比较复发未复发合 计吡嗪磺合剂7619201996乙胺嘧啶27446473对 照53431484合 计156279729532H0:三个总体复发率相同H:三个总体复发率不全相同=0.053求2值 将表3.11的数值代入
13、式(3.10)(因为在表3.11中,各组的a值较小,计算较方便)得: 4求自由度,确定P值,作结论=(K-1)(2-1)=(3-1)(2-1)=2,查2值表得20.01(2)=9.21,本例2=39.9220.01(2),P0.01,在=0.05的水准处拒绝H0,接受H1,即三个组的复发率有显著差别。本例的结论是三个组的复发率有显著差别,因此,还需进一步说明三组中那两组有差别,可用四格表对每两个率进行假设检验。本例的检验结果是:吡嗪磺合剂与对照组比(P0.01),乙胺嘧啶组与对照组比(P0.05),说明吡嗪磺合剂有预防疟疾复发的作用,其效果不低于乙胺嘧啶。本例2K表的2是指得发、未复发两项,K
14、为比较的组数,K=3。如果比较组数只有2,而构成每组的项数则多于2,如甲状腺肿的型别构成可分为弥漫型、结节型、混合型三种。这类资料亦同样可用2K表专用公式进行检验。这时把2作为比较组数,K作为项数,检验方法同上,表3.12是2K表的另一种形式。表3.122K表形式之二a1a2ai bib1b2n1n2N例3.4,为研究不同地域甲状腺型别的构成有无显著差别,某省对两个县的居民进行甲状腺肿调查,得资料如表3.13,问甲乙两县各型甲状腺肿患者构成比有无显著判别?表3.13某省甲乙两县甲状腺肿患者型别构成比较县名弥漫型结节型混合型合计甲县48624492乙县13326051444合计619262559
15、36检验步骤如下:1H0:两总体甲状腺肿型别构成相同H1:两总体甲状腺肿型别构成不同=0.052求2值, 将表3.13中的数值代入式3.10得: 3求自由度,确定P值,作结论。=(3-1)(2-1)=2,查2值表得20.01(2)=9.21,本例,2=494.36,P0.01,在=0.05水准处拒绝H0,接受H1,甲、乙两县甲状腺肿型别构成有差别(P20.01(2),P0.01,在=0.05的水准处拒绝H0,接受H1,即三个组的复发率有显著差别。本例的结论是三个组的复发率有显著差别,因此,还需进一步说明三组中那两组有差别,可用四格表对每两个率进行假设检验。本例的检验结果是:吡嗪磺合剂与对照组比
16、(P0.01),乙胺嘧啶组与对照组比(P0.05),说明吡嗪磺合剂有预防疟疾复发的作用,其效果不低于乙胺嘧啶。本例2K表的2是指得发、未复发两项,K为比较的组数,K=3。如果比较组数只有2,而构成每组的项数则多于2,如甲状腺肿的型别构成可分为弥漫型、结节型、混合型三种。这类资料亦同样可用2K表专用公式进行检验。这时把2作为比较组数,K作为项数,检验方法同上,表3.12是2K表的另一种形式。表3.122K表形式之二a1a2ai bib1b2n1n2N例3.4,为研究不同地域甲状腺型别的构成有无显著差别,某省对两个县的居民进行甲状腺肿调查,得资料如表3.13,问甲乙两县各型甲状腺肿患者构成比有无显
17、著判别?表3.13某省甲乙两县甲状腺肿患者型别构成比较县名弥漫型结节型混合型合计甲县48624492乙县13326051444合计61926255936检验步骤如下:1H0:两总体甲状腺肿型别构成相同H1:两总体甲状腺肿型别构成不同=0.052求2值, 将表3.13中的数值代入式得:3求自由度,确定P值,作结论。=(3-1)(2-1)=2,查2值表得20.01(2)=9.21,本例,2=494.36,P0.01,在=0.05水准处拒绝H0,接受H1,甲、乙两县甲状腺肿型别构成有差别(P0.01)。甲县以弥漫型为主,而乙县结节型较多,地域与患者的型别构成具有一定的关系。此类资料经2检验作结论,如
18、果不显著,说明两组资料的构成比来自同一总体,没有显著差别。如果结论显著,说明两组的构成比来自不同总体,差别有显著性。同时要指出两组构成的主要区别。(二)RC表的通用公式当资料的行数和列数都超过2时称RC表。对此种资料作假设检验时,可用基本公式但运算较繁,如果用RC表的通用公式计算2值,较为简便。式中,Aij为i行第j列的实际频数,ni为第i行的合计数,nj为第j行列的合计数,N为总频数。这个公式也系由基本公式(3.5)推导出来,式(3.12)也可用以求四格表、2K表资料的X2值,故称通用公式,用此公式不需计算理论频数,与基本公式(3.5)相比,较为简便。例3.5某院肝胆外科在手术中观察了胆结石
19、的部位与类型得资料如表3.14,试分析两者间有无关系存在?表3.14胆结石类型与部位的关系结石部位总例数例 数百分比胆固醇结石胆红素结石其它胆固醇结石胆红素结石其它胆囊11870163259.313.627.1肝外胆管7512392416.052.032.0肝内胆管2922076.969.024.1合计22284756337.833.828.4检验步骤如下:1将表3.14资料写成RC表形式,见表3.15.表3.15胆结石类型与部位的关系结石部位结 构 类 型胆固醇结石胆红素结石其它合计胆囊701632118肝外胆管12392475肝内胆管220729合计8475632222H0:胆结石的类型与
20、部位没有关系H1:胆结石的类型与部位有关系=0.013求2值 将表3.15数值代入式(3.12)得: 4求自由度,确定P值,作结论。=(3-1)(3-1)=4,查2值表得20.01(4)=13.28,本例2=64.0620.01。在=0.01水准处拒绝H0,接受H1,胆结石类型与部位有显著关系存在(P0.01),胆囊内以胆固醇结石居多,肝内、外胆管以胆红素结石为主。H1:胆结石的类型与部位有关系=0.013求2值 将表3.15数值代入式(3.12)得: 4求自由度,确定P值,作结论。=(3-1)(3-1)=4,查2值表得20.01(4)=13.28,本例2=64.0620.01。在=0.01水准处拒绝H0,接受H1,胆结石类型与部位有显著关系存在(P0.01),胆囊内以胆固醇结石居多,肝内、外胆管以胆红素结石为主。