知识讲解独立性检验基本思想及其初步应用文理.docx
- 文档编号:318117
- 上传时间:2022-10-08
- 格式:DOCX
- 页数:17
- 大小:160.44KB
知识讲解独立性检验基本思想及其初步应用文理.docx
《知识讲解独立性检验基本思想及其初步应用文理.docx》由会员分享,可在线阅读,更多相关《知识讲解独立性检验基本思想及其初步应用文理.docx(17页珍藏版)》请在冰豆网上搜索。
知识讲解独立性检验基本思想及其初步应用文理
独立性检验的基本思想及其初步应用
【学习目标】
1.了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用
2.通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用.
【要点梳理】
要点一、分类变量
有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。
要点诠释:
(1)对分类变量的理解。
这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。
例如:
“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女”。
因此,这里所说的“变量”和“值”取的不一定是具体的数值。
(2)分类变量可以有多种类别。
例如:
吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。
要点二、2×2列联表
1.列联表
用表格列出的分类变量的频数表,叫做列联表。
2.2×2列联表
对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:
事件B
事件
合计
事件A
a
b
a+b
事件
c
d
c+d
合计
a+c
b+d
a+b+c+d
这样的表格称为2×2列联表。
要点三:
卡方统计量公式
为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示
Y1
Y2
合计
X1
a
b
a+b
X2
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
(
为样本容量)。
要点四、独立性检验
1.独立性检验
通过2×2列联表,再通过卡方统计量公式计算
的值,利用随机变量
来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.变量独立性的判断
通过对
统计量分布的研究,已经得到两个临界值:
3.841和6.635。
当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:
①如果
≤3.841时,认为事件A与B是无关的。
②如果
>3.841时,有95%的把握说事件A与事件B有关;
③如果
>6.635时,有99%的把握说事件A与事件B有关;
要点诠释:
(1)独立性检验一般是指通过计算
统计量的大小对两个事件是否有关进行判断;
(2)独立性检验的基本思想类似于反证法。
即在H0:
事件A与B无关的统计假设下,利用
统计量的大小来决定在多大程度上拒绝原来的统计假设H0,即拒绝“事件A与B无关”,从而认为事件A与B有关。
独立性检验为假设检验的特例。
(3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。
3.独立性检验的基本步骤及简单应用
独立性检验的步骤:
要推断“A与B是否有关”,可按下面步骤进行:
(1)提出统计假设H0:
事件A与B无关(相互独立);
(2)抽取样本(样本容量不要太小,每个数据都要大于5);
(3)列出2×2列联表;
(4)根据2×2列联表,利用公式:
,计算出
的值;
(5)统计推断:
当
>3.841时,有95%的把握说事件A与B有关;
当
>6.635时,有99%的把握说事件A与B有关;
当
>10.828时,有99.9%的把握说事件A与B有关;
当
≤3.841时,认为事件A与B是无关的.
要点诠释:
1使用
统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5.
2一定要弄清
的表达式
中各个量的含义.
3独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量
应该很小,如果由观测数据计算得到的
的观测值很大,则在一定程度上说明假设不合理.根据随机变量
的含义,由实际计算的
>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当
≤3.841时,认为两个分类变量是无关的.
【典型例题】
类型一、利用2×2列联表计算卡方
例1.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校学生中随机地抽取了50名学生,得到如下列联表:
喜欢数学
不喜欢数学
合计
男
13
10
23
女
7
20
27
合计
20
30
50
根据表中的数据,计算
【思路点拨】利用
公式计算
【解析】得到
【思路点拨】在利用
列联表计算
统计量作独立性检验时,要求表中的4个数据大于等于5,为此,在选取样本的容量时一定要注意这一点。
举一反三:
【变式1】研究两个事件A,B之间的关系时,根据数据信息列出如下的2×2列联表:
B
合计
A
n11
n12
n1+
n21
n22
n2+
合计
n+1
n+2
n
则以下
计算公式正确的是()
A.
B.
C.
D.
【答案】A
【变式2】由列联表
合计
43
162
205
13
121
134
合计
56
283
339
则随机变量
。
(精确到0.001)
【答案】由
公式计算得:
7.469
类型二、独立性检验
例2.近年来,随着我国经济的飞速发展,在生产车间中,由于保护不当,对生产工人造成伤害的事件也越来越多.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎(注:
检查为阳性则为患皮肤炎),在生产季节开始时,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数的结果如下:
阳性例数
阴性例数
合计
新
5
70
75
旧
10
18
28
合计
15
88
103
问这种新防护服对预防工人患职业性皮肤炎是否有效?
并说明你的理由.
【思路点拨】这是一个
列联表的独立性检验问题,根据列联表的数据求解判断。
【解析】提出假设H0:
新防护服对预防工人患职业性皮肤炎无效.
将表中数据代入
,得
,查表可知:
P(
≥10.828)≈0.001,而13.826>10.828,故有99.9%的把握认为新防护服对预防这种职业性皮肤炎有效.
【总结升华】在掌握了独立性检验的基本思想后我们一般通过计算
的值,然后比较
的值与临界值的大小来精确地给出“两个分类变量”的相关程度.
举一反三:
【变式1】某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析。
其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件。
根据上面的数据,你能得出什么结论?
【答案】由已知数据得到下表
合格品
不合格品
合计
设备改造后
65
30
95
设备改造前
36
49
85
合计
101
79
180
根据公式
得
≈12.38。
由于12.38>6.635,可以得出产品是否合格与设备改造是有关的。
【变式2】考察黄烟经过培养液处理与否跟发生青花病的关系。
调查了457株黄烟,得到下表中数据,请根据数据作统计分析。
培养液处理
未处理
合计
青花病
25
210
235
无青花病
80
142
222
合计
105
352
457
分析:
计算
的值与临界值的大小关系。
【答案】根据公式
=
≈41.61。
由于41.61>6.635,说明经过培养液处理的黄烟跟发生青花病是有关的。
【变式3】为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示:
男
女
正常
442
514
色盲
38
6
根据上述数据试问色盲与性别是否是相互独立的?
【答案】由已知条件可得下表
男
女
合计
正常
442
514
956
色盲
38
6
44
合计
480
520
1000
依据公式
得
=
=27.139。
由于27.139>6.635,所以有99%的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性别不是相互独立的。
例3.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病
未发作过心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别.
【思路点拨】先提出假设,然后根据
的大小做出准确估计判断。
【解析】假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系.
由于a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,
所以
。
因为
≈1.779<<2.706,所以不能作出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论.即这两种手术对病人又发作过心脏病的影响没有差别.
【总结升华】此类问题的一般解法是利用
求出
的值,再利用与临界值的大小关系来判断假设是否成立.在解题时应注意准确代数与计算.
举一反三:
【变式1】对男女大学生在购买食品时是否看营养说明进行了调查,得到的数据如下表所示:
看营养说明
不看营养说明
合计
男大学生
23
32
55
女大学生
9
25
34
合计
32
57
89
利用2×2列联表的独立性检验估计看营养说明与性别的关系中准确的是()
A.二者一定无关
B.有95%的把握说二者有关
C.有99%的把握说二者有关
D.没有理由说二者有关
【答案】D;
由公式得:
,
因为2.149<3.841,所以我们没有理由说看营养说明与性别有关。
故选D。
【变式2】在大连—烟台的某次航运中,出现了恶劣气候。
随机调查男、女乘客在船上晕船的情况如下表所示:
晕船
不晕船
合计
男人
32
51
83
女人
8
24
32
合计
40
75
115
据此资料,你能否认为在恶劣气候中航行时,男人比女人更容易晕船?
【答案】由卡方公式得:
。
因为1.870<3.841,所以我们没有理由说晕船跟性别有关。
因此不能认为在恶劣气候中航行时,男人比女人更容易晕船。
注意:
解决本题主要运用卡方公式来判断,尽管这次航行中男人晕船比例
比女人晕船比例
高,但我们不能就此认为在恶劣气候中航行时男人比女人更容易晕船。
类型三、独立性检验的应用
例4.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:
班级与成绩列联表
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
45
总计
17
73
90
画出列联表的条形图,并通过图形判断成绩与班级是否有关;利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。
【解析】列联表的条形图如图所示:
由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得K2的观察值为K2≈0.653
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识 讲解 独立性 检验 基本 思想 及其 初步 应用 文理