高中数学 22 2二项分布与正态分布教案 新人教A版选修选修23Word下载.docx
- 文档编号:20559559
- 上传时间:2023-01-24
- 格式:DOCX
- 页数:39
- 大小:382.40KB
高中数学 22 2二项分布与正态分布教案 新人教A版选修选修23Word下载.docx
《高中数学 22 2二项分布与正态分布教案 新人教A版选修选修23Word下载.docx》由会员分享,可在线阅读,更多相关《高中数学 22 2二项分布与正态分布教案 新人教A版选修选修23Word下载.docx(39页珍藏版)》请在冰豆网上搜索。
此外=,掌握这种对称性,将有助于简化运算。
表7.1
硬币面朝上数x
概率P(X=x)
1
2
3
4
5
6
7
8
1/256=.004
8/256=.031
28/256=.109
56/256=.219
70/256=.274
1/256=.004
合计
1.000
表7.1清楚地显示,做8次抛掷一枚硬币的重复试验,我们将得到9个可能结果中的一个。
与经验认识不同的是,通过运用概率论,实现的每个可能结果都与一定的概率相联系。
据此,我们可以对各种结果实现的可能性作出估计。
其中,试验结果为4次成功(即4次面朝上)的可能性最大,而试验结果为全部面朝上(即8次面朝上)或全部面朝下(即0次面朝上)的可能性最小,每做256次同样的重复试验才可望看到一次。
在这个简单例子中,每回试验硬币仅被重复抛掷了8次,也仅能有为数不多的可想象到的结果。
当然,还可以设想做硬币重复抛掷更多次的试验.比如硬币被重复抛掷100次,那么可能实现的结果就会有101种。
同样运用概率论的知识,我们可以把这些可能结果编组,并把概率和整个一组结果相联系。
每当我们把概率与重复试验的每一种可能结果或几组结果联系起来时,就会得到如表7.1所示的概率分布,我们称之为二项分布。
2.二项分布的讨论
(1)二项分布为离散型随机变量的分布。
每当试验做的是在相同的条件下n次重复的贝努里试验时,
随机变量X共有n+1个取值。
二项分布可以用分布律(表7.2)和折线图(图7.1)来表示。
表7.2
X
012…n
合计
P
p0qnp1qn-1p2qn-2…pnq0
=1
(2)二项分布的图形当p=0.5时是对称的,当p≠0.5时是非对称的,而当n愈大时非对称性愈不明显(参见图7.1)。
(3)二项分布的数学期望E(X)=μ=np,变异数D(X)=σ2=npq。
(4)二项分布受成功事件概率p和试验次数n两个参数变化的影响,只要确定了p和n,成功次数x的概率分布也随之确定。
因而,二项分布还可简写作B(x;
n,p)。
(5)二项分布的概率值除了根据公式直接进行计算外,还可查表求得。
二项分布表的编制方法有两种:
一种依据概率分布律P(x)编制(见附表2);
另一种依据分布函数F(x)编制(见附表3)。
F(x)=P(X≥x)=(7.4)
[例7.1.1]某特定社区人口的10%是少数民族,现随机抽取6人,问其中恰好2人是少数民族的概率是多少?
[解]解法一:
根据(7.3)式直接计算
P(X=2)=p2q4==0.0984=9.84%
解法二:
根据附表2中纵列n=6和横行p=0.1所对应x值,可直接查得B(x;
6,0.1)的概率值
B(2;
6,0.1)=0.0984
解法三:
根据附表3求得
6,0.1)=F
(2)-F(3)=0.1143―0.0159=0.0984
[例7.1.2]求B(x;
8,0.7)的中位数。
[解]根据附表3中纵列n=8和横行p=0.7所对应的x值,可查出大于等于x的概率值。
由于附表列示的是二项分布的累计概率,因此求中位数很方便。
Md=5.5+=5.6747
第二节统计检验的基本步骤
二项分布是用数学或演绎推理的方法求得的一种理论分布。
认识到概率分布是先验的理论分布这一点很重要,因为我们不禁要问,既然试验或抽样调查的结果仅与随机变量可能取值中的一个相联系,那么实际试验或样本调查对结果的概率分布及前提假设有没有一个检验的问题?
具体来讲,对于一枚硬币被重复抛掷8次的二项试验,经验告诉我们,一共有9种可能的结果,而且实现这些结果的机会是大不相同的。
研究者实际上从来不用经验的方法求得概率分布,因为通常我们只对一项试验进行一次或几次,抽取样本也是一个或至多不过几个。
既然二项分布是按照数学规则得到的,那么对这9种结果的可能性我们应该作出何种评价呢?
如果实际抽样得到的结果偏巧就是先验概率预示的最不可能出现的结果,那么我们是认定纯属巧合,还是开始对用数学或演绎推理方法求得的概率以及理想试验的种种前提假设产生怀疑?
更准确地说,在一枚硬币被重复抛掷8次的这个二项试验中,究竟出现什么结果时,我们应该对二项分布及其前提假设产生怀疑呢?
是不是只要不是得到4次成功4次失败这个最大可能性结果就开始怀疑,还是仅当出现8次成功或一次也不成功这两个极端情况时才产生怀疑呢?
这就是统计检验的核心问题。
概率分布不是一种研究者从资料中看到的分布,我们讨论它,不是出于对数学的爱好,而是因为统计推论的有关工作需要它。
现在,我们要进入系统讨论统计假设检验的实际步骤的阶段。
所有的统计检验都包含某些特定的步骤,这里先列示如下:
(1)建立假设;
(2)求抽样分布;
(3)选择显著性水平和否定域
(4)计算检验统计量;
(5)判定。
应当注意,在统计检验中,概率分布都是与样本的可能结果相联系的,所以已超越了纯数学范畴。
本书至此,开始将概率分布化为抽样分布来具体讨论。
所谓抽样分布,就是把具体概率数值赋予样本每个或每组结果的概率分布。
1.建立假设
统计检验是将抽样结果和抽样分布相对照而作出判断的工作。
取得抽样结果,依据描述性统计的方法就足够了。
抽样分布则不然,它无法从资料中得到,非利用概率论不可。
而不对待概括的总体和使用的抽样程序做某种必要的假设,这项工作将无法进行。
比如通过掷硬币的实验得到二项分布,必须假设:
①样本是随机的,各次抛掷相互独立;
②硬币是无偏的(或称是诚实的),即p=q=0.5。
概括地说,必须首先就研究总体和抽样方案都做出假设,再加上概率论,我们就可以对各种可能结果做具体的概率陈述了。
2.求抽样分布
在做了必要的假设之后,我们就能用数学推理过程来求抽样分布了。
比如在这一章开头,在硬币抛掷n次的理想实验中,我们计算了成功次数为x的宏观结果所具有的概率,得到二项分布。
如果前提假设变动了,还可以求出其他形式的概率分布,如正态分布、泊松分布、卡方分布等等,它们都有特定的方程式。
由于数学上已经取得的成果,实际上统计工作者要做的这项工作往往并不是真的去求抽样分布的数学形式,而是根据具体需要,确定特定问题的统计检验应该采用哪种分布的数学用表。
3.选择显著性水平和否定域
有了与问题相关的抽样分布,我们便可以把所有可能的结果分成两类:
一类是不大可能的结果,比如硬币被抛掷8次,结果8次都面朝上。
另一类则相反,我们预料这些结果很可能发生。
既然如此,如果我们在一次实际抽样中得到的结果恰好属于第一类,我们就有理由对概率分布的前提假设产生怀疑。
在统计检验中,这些不大可能的结果称为否定域。
如果这类结果真的发生了,我们将否定假设;
反之就不否定假设。
概率分布的具体形式是由假设决定的,假设肯定不止一个。
从统计检验的角度来看,所有假设在逻辑推理中都有相同的地位。
如果作为检验用的样本结果真的落在否定域内,那么可以讲,至少假设中的一个(也可能是全部)是错的。
就像在掷硬币的试验中,如果实际结果落在否定域中,那么我们可以说前提假设有问题。
不过,究竟是硬币不诚实还是抽样在程序上违反了随机原则,我们却无从得知。
所以要使检验具有意义,必须把怀疑集中在其中一个假设上。
在统计检验中,通常把被检验的那个假设称为零假设(或称原假设,用符号H0表示),并用它和其他备择假设(用符号H1表示)相对比。
至于我们究竟情愿认为假设中哪一个可能是错误的,因而应该作为被检验的对象,除了检验本身所提供的知识外,还必须从以往的经验或其他方面了解更多的东西。
在掷硬币的试验中,如果可以确定抽样程序遵循了随机原则,那么我们就可以认为硬币有偏,并把硬币无偏定为零假设。
一旦实际结果是落在否定域,我们就说p=0.5的假设错了。
反之,实际结果落在否定域之外,就不允许我们否定零假设。
值得注意的是,假设只能被检验,从来不能加以证明。
统计检验可以帮助我们否定一个假设,却不能帮助我们肯定一个假设。
比如硬币抛掷试验的结果没有落在否定域中,我们不能据此就判定p=0.5的假设是对的。
因为假若硬币真正面朝上的概率是0.49而不是0.50,则正确的抽样分布和我们所计算的几乎完全相同。
如果我们因为不能否定零假设就冒然地肯定它,就很可能因为用语太绝对而犯错误。
所以在统计检验中,一个零假设如果我们不能否定它,也不能将它作为完全正确的假设而无保留地予以接受,而宁愿采用“不能否定它”的陈述。
为了使检验更严格、更科学,还需要更多的东西。
首先,我们必须确定甘冒犯第一类和第二类错误的风险的程度;
其次,要确定否定域是否要包含抽样分布的两端。
第一类错误是,零假设H0实际上是正确的,却被否定了。
第二类错误则是,H0实际上是错的,却没有被否定。
例如,若抛硬币试验的否定域由0次或8次面朝上两种情况组成,每当实际试验出现这两个结果之一时,假设就被否定了。
与此同时,我们就有了犯第一类错误的危险。
因为,既使p=0.5的假设是正确的,正如表7.1表明的那样,这样的实验每做256次,毕竟还有出现全部面朝上和全部面朝下各一次的机会。
假如抽样我们得到的偏巧就是这样一种极端结果,并据此否定了p=0.5,那么我们就犯了第一类错误。
相反,假如检验中我们得到的结果是3次面朝上5次面朝下,由于这个结果不在否定域内,我们不否定p=0.5,则有了犯第二类错误的危险。
因为如果p=0.49,而不是0.5,我们也很可能得到相同的结果。
换句话说,由于p=0.5的假设实际上是错误的,却没有被否定,我们犯了第二类错误。
遗憾的是,不管我们如何选择否定域,都不可能完全避免第一类错误和第二类错误,也不可能同时把犯两类错误的危险压缩到最小。
对任何一个给定的检验而言,第一类错误的危险越小,第二类错误的概率就越大;
反之亦然。
一般来讲,不可能具体估计出第二类错误的概率值。
第一类错误则不然,犯第一类错误的概率是否定域内各种结果的概率之和。
对上述掷硬币的试验,假如决定当得到试验结果是0次、1次、7次或8次面朝上就否定零假设(H0),那么犯第一类错误的概率将是(1+1+8+8)/256=7%。
由于犯第一类错误的危险和犯第二类错误的危险呈相背趋向,所以统计检验时,我们必须事先在甘冒多大第一类错误的风险和多大第二类错误的风险之间作出权衡。
被我们事先选定的可以犯第一类错误的概率,叫做检验的显著性水平(用α表示),它决定了否定域的大小。
如果抽样分布是连续的,否定域可以建立在想要建立的任何水平上,否定域的大小可以和显著性水平的要求一致起来(后面的正态检验就如此)。
如果抽样分布是非连续的,就要用累计概率的方法找出一组构成否定域的结果。
即在已知概率分布表上,从两端可能性最小的概率开始向中心累计,直至概率之和略小于选定的显著性水平为止。
例如对硬币重复抛掷8次的试验,我们选用0.20的显著性水平,从表7.1开列的概率分布,可以确定否定域由0,l,7或8次面朝上这四种结果组成。
每当检验的结果出现这四种情况之一,我们就否定零假设。
在掷硬币的试验中,我们可能怀疑这枚硬币是不诚实的,但却不知道它究竟偏于面朝上还是面朝下。
在这种情况下,为了稳妥起见,就要考虑抽样分布的两端。
但在许多场合,我们能预测偏差的方向,或只对一个方向的偏差感兴趣。
每当方向能被预测的时候,在同样显著性水平的条件下,单侧检验比双侧检验更合适。
因为否定域被集中到抽样分布更合适的一侧,可以得到一个比较大的尾端。
这样做,可以在犯第一类错误的危险不变的情况下,减少了犯第二类错误的危险。
譬如,我们预测方向p>0.5,即怀疑这枚硬币有面朝上的偏向,那么在同样0.20的显著性水平的情况下,单侧检验的否定域将变为由6,7,8次面朝上这三种结果组成。
原来双侧检验,出现6次面朝上这种结果将不否定零假设。
现在改用单侧检验,出现这种结果就得否定零假设了。
这样,犯第一类错误的概率不变(因显著性水平仍是0.20),但犯第二类错误的概率则显然降低了不少。
4.计算检验统计量
完成了上述工作之后,接下来就是做一次与理想试验尽量相同的实际抽样(比如实际做一次重复抛掷硬币的试验),并从获取的样本资料算出检验统计量。
检验统计量是关于样本的一个综合指标,但与我们后面参数估计中将要讨论的统计量有所不同,它不用作估测,而只用作检验。
在二项检验中,检验统计量就是n次抛掷后成功次数x。
x如果是构成否定域的那些结果之一,我们就要否定零假设;
反之,就不否定零假设。
计算检验统计量总是必要的。
不过在二项检验中,得到x是如此简单,以至于谈不上要去计算,只要从样本资料中点算“成功”的次数就可以了。
不过,在后面的正态检验中,通过计算Z分数,我们便会真正体会到计算检验统计量的必要性了。
5.判定
假设检验系指拒绝或保留零假设的判断,又称显著性检定。
在选择否定域并计算检验统计量之后,我们完成最后一道手续,即根据试验或样本结果决定假设的取与舍。
如果结果落在否定域内,我们将在已知犯第一类错误概率的条件下,否定零假设。
反之,如果结果落在否定域外,则不否定零假设,与此同时,我们就有了犯第二类错误的危险。
[例7.2.1]若想通过抛掷10次硬币的实验来检验这个硬币无偏的零假设,选用双侧检验及0.10显著性水平,请指出否定域。
如单侧检验(p<0.5)又将如何?
[解]P(0)+P
(1)+P(9)+P(10)
=2×
(+)=0.022<0.10
P(0)+P
(1)+P
(2)+P(8)+P(9)+P(10)
=2×
(++)=0.110>0.10
所以双侧检验时,否定域为0,1,9,10次面朝上。
P(0)+P
(1)+P
(2)
=++=0.055<0.10
P(0)+P
(1)+P
(2)+P(3)
=+++=0.172>0.10
所以单侧检验时,否定域为0,1,2次面朝上。
[例7.2.2]某选区有选民10000人,其中属于文教系统的有4000人,要产生代表6名。
假定各系统选民都有同等机会当选代表,求:
①代表是文教系统人员的概率分布;
②在6名代表中最可能是文教系统人员占几名;
③如果6名代表中实际有4名是文教育系统的人员,可以否定随机性的零假设吗?
(选用0.05显著性水平,单侧检验,预测方向p>0.4)
[解]①既然各系统选民都有相同的当选机会,那么p==0.4。
按(7.3)式求代表中有x名是文教系统人员的抽样分布,如表7.3所示。
表7.3
x
1·
729/15625=0.047
6·
486/15625=0.187
15·
324/15625=0.311
20·
216/15625=0.276
144/15625=0.138
96/15625=0.037
1·
64/15625=0.004
②由表7.3可见,在满足随机性假设条件下,在6名代表中最可能有文教系统的人员2名。
③由表7.3可见
P(5)+P(6)=0.041<0.05
P(4)+P(5)+P(6)=0.179>0.05
所以,否定域由x等于5或6组成。
而在6名代表中实际有文教系统人员4名,故不能否定随机性的零假设。
此例是成功的概率p已知的情况,这样在随机性的零假设下,就可以用二项分布做非随机性检验了。
[例7.2.3]在一项研究中,研究人员试图证明如下假设:
一个有犯罪倾向的少年如果能经常得到一个成人热忱友好的忠告,他就可能避免犯罪。
为此,研究人员在孩子们中取14组,进行控制组和实验组的对照研究。
试问,怎样用二项分布做“试验无效”的检验。
[解]先将14个组两两匹配,得到七配对组(要使每个配对组在除实验变量之外的其他方面尽量相似)。
然后在每个配对组中任取一组安排于实验组,另一组安排于控制组。
接着,在4—8年的时间内,让分到实验组的七组孩子接受成人一对一的忠告,而控制组的七组孩子没有这样做。
而后对每个配对组分别进行后侧度量,并用“+”号表示实验组比控制组好的那些配对组,用“―”号表示实验组比控制组差的那些配对组。
除非度量方法很粗糙,每配对组应该都能判断出差异。
这样便可以用二项分布做“试验无效”的检验了(参见本章第一节)。
零假设H0:
p=0.5(即“试验无效”)
备择假设H1:
p>0.5
选用0.10的显著性水平,根据附表3中纵列n=7和横行p=0.5所对应的x值,可查得
P(6)+P(7)=0.0625<0.10
P(5)+P(6)+P(7)=0.2266>0.10
所以否定域由6个“+”和7个“+”组成。
即对每配对组进行后测度量,如出现6个“+”或7个“+”时,在0.10的显著性水平上,我们将否定零假设,说明试验有效。
否则就不能否定零假设,也就是说关于成年人忠告有助于减少少年犯罪的观点不能得到实验结果的支持。
第三节正态分布
如果说二项分布是离散型随机变量最具典型意义的概率分布,那么连续型随机变量最具典型意义的概率分布就是正态分布了。
实践中常见的一类连续型随机变量,多数服从或近似服从正态分布。
例如测量误差、智商以及人体的身高体重、运动员的成绩等等,都可以用正态分布进行描述。
一般地讲,若影响某一变量的随机因素很多,而每个因素所起的作用不太大且相互独立,则这个变量服从正态分布。
更为重要的是,正态分布还是抽样理论和统计推断的基础。
例如,不论总体是否服从正态分布,只要样本容量n足够大,样本平均数的抽样分布就趋于正态分布。
正态分布的研究始于18世纪,是最重要的概率分布,这是因为:
①许多自然现象与社会现象,都可用正态分布加以叙述;
②不少离散型随机变量与连续型随机变量的概率分布都以正态分布为其极限(即当样本相当大时,可用正态近似法解决这些概率分布的问题);
③许多统计量的抽样分布呈正态分布,故在参数估计与假设检验上经常以正态分布为理论基础。
1.正态分布的数学形式
自本书第三章引出变量数列,我们便可以列举出不少总体的分布很接近于正态分布,例如男性的身高。
如果我们拥有的数据非常多,在编制变量数列时我们就可以把组分得很细,并得到组距很小的直方图。
现在想象,如果组越分越细,并且纵轴采用频率密度(=),直方图最终就转化为的概率密度曲线(X=x)(参见图7.2)。
很显然,从图7.2可以看出,这样的平滑曲线如“钟型”,它具有单峰、对称这两个特点,并且曲线向左、向右延伸,以横轴为渐近线。
上述实例,对于我们领会正态分布是很有启发性的。
根据经验总结和理论分析可知,正态分布的概率密度表达为如下形式
(X=x)=(7.5)
式中π和e都是常数,分别近似等于3.14和2.72。
从正态分布的数学表达式可以看出,当总体均值μ和方差σ2确定后,正态分布曲线的精确形式也就确定了。
换句话说,有许多不同的正态曲线,每一个对应于μ和σ的一个组合。
分析正态分布的概率密度(X=x),很容易理解正态曲线具有下列性质:
(1)正态曲线以X=μ呈钟形对称,其均值、中位数和众数三者必定相等。
(2)(X=x)在X=μ处取极大值。
X离μ越远,(X=x)值越小。
这表明对于同样长度的区间,当区间离μ越远,X落在这个区间的概率越小。
正态曲线以X铀为渐近线,即(X=x)在|X|无限增大时趋于零,即(x)=0或(x)=0。
(3)对于固定的σ值,不同均值μ的正态曲线的外形完全相同,差别只在于曲线在横轴方向上整体平移了一个位置(参见图7.3)。
(4)对于固定的μ值,改变σ值,σ值越小,正态曲线越陡峭;
σ值越大,正态曲线越低平(参见图7.4)。
(5)正态分布的数学期望E(X)=μ,变异数D(X)=σ2,因为
E(X)==μ
D(X)==σ2
正态曲线的性质可供阐明标准差。
由于曲线的形状完全取决于标准差σ,所以σ可供作为衡量总体分布状况的一个统一的尺度,称为标准差。
从直观上去理解,σ实际上是一个很好的离势的量度:
σ值越小,离中趋势越小,总体中各变量值也就越接近;
;
σ值越大,离中趋势越大,总体中各变量值也就越分散。
2.标准正态分布
我们在统计分析时,经常性的重要工作是要确定给定区间所含总体单位数的比重,也就是变量X的取值在这个给定区间内出现的频率。
因此在对有限总体的数据进行分组时,得到相对频数分布是很重要的。
对于连续变量,过去由于分组有限,只能加以近似地讨论。
现在,由于正态曲线的一些异乎寻常的数学性质,使得这项工作非但不困难,反而变得简单易行。
一般作法是引入新的随机变量Z[参见(5.12)式]
Z=(7.6)
上式表明,Z代表以标准差σ为单位表示的变量值离开均值μ的偏差,即代表经σ标准化之后的X对μ的离差。
故Z经常被称为变量X的标准分,或称Z分数;
Z亦被称为标准正态变量。
如果把Z代入(7.5)式,我们便得到了用Z分数表达的标准正态分布,其概率密度为
(Z)=(7.7)
比较(7.5)和(7.7)式,很容易得知标准正态变量的数学期望E(Z)=0,变异数(即方差)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高中数学 22 2二项分布与正态分布教案 新人教A版选修选修23 二项分布 正态分布 教案 新人 选修 23