中南大学研究生应用统计课件.docx
- 文档编号:48910
- 上传时间:2022-10-01
- 格式:DOCX
- 页数:36
- 大小:423.83KB
中南大学研究生应用统计课件.docx
《中南大学研究生应用统计课件.docx》由会员分享,可在线阅读,更多相关《中南大学研究生应用统计课件.docx(36页珍藏版)》请在冰豆网上搜索。
中南大学研究生应用统计课件
数理统计的基本概念与抽样分布
§1.1引言
什么是数理统计学?
它的研究内容有哪些?
这是每位初学者所关心的问题。
我们先看一个这样的例子:
某钢筋厂每天可以生产某型号钢筋10000根,钢筋厂每天需要对生产过程进行控制,对产品的质量进行检验。
如果把钢筋的强度作为钢筋质量的重有指标,于是质量管理人员需要做如下方面的工作
第一,对生产出来的钢筋的强度进行检测,获得必要的数据。
这里有两种获得数据的方法,
对10000根钢筋的强度均进行检测,可得到10000个强度数据,这种检测方式称为全面试验,全面地进行试验一般是不可取的,它费时、费力、甚至于不可能。
从10000根钢筋中抽取一部分钢筋进行检测,得到部分强度数据。
这里抽取部分钢筋进行检测的方式称为抽样。
抽取的方式也有很多种方法,它是数理统计的一个重要内容,形成了试验设计与抽样理论。
第二,对通过抽样获取的部分数据进行整理、分析并推断出这10000根钢筋的质量是否合乎要求。
由于抽取的数据不全面,并且检测过程中每个数据还有测量误差(我们称为随机误差)。
含有随机误差的数据会给我们带来一定影响,并且难以获得准确的结论。
概率论就是解决这些问题主要数学工具。
为解决这些问题所发展起来的理论和方法就构成了数理统计的内容。
一般说来,数理统计是以概率论为主要的数学工具,研究如何有效地收集、整理和分析受随机影响的数据,并对所考虑的问题作出推断和预测,为决策和行动提供依据和建议的一门数学学科。
数理统计方法的应用十分广泛,几乎在人类活动的一切领域都能不同程度地找到它的应用。
英国著名的统计学家费歇(R.A.Fisher)和皮尔逊(K.Pearson)是数理统计的奠基人,在20世纪初从事大量的数理统计方法的研究,就是出于在生物学、数量遗传学、优生学和农业科学的需要。
数理统计的内容十分丰富,一般可分为两大类:
一类是抽样理论与试验设计;另一类是统计推断,其中包括估计理与假设检验等。
回归分析、方差分析、Bayes分析,聚类分析,主成分分析等是数理统计的应用分支。
§1.2总体、个体、样本
1.21总体与个体
我们把所研究对象的全体称为总体或母体。
组成总体的每个单元称为个体。
例如:
在研究某批灯泡的质量时,该批灯泡的全体就是问题的总体,而其中每个灯泡就是个体。
又如:
在研究某校男大学生的身高与体重的分布时,该校的每个男大学生就是一个个体,所有这些个体就构成了问题的总体。
在实际问题中,我们关心的常常是总体的某项或几项数量指标X(可以是向量)。
例如,在研究灯泡的质量时,我们关心的是灯泡的使用寿命X,而不是它的外观。
在研究某校男大学生的身高与体重时,我们关心的是它们的身高和体重,而不是其它特征。
而数量指标X对不同的个体,其指标值是不同的,因而X可看作一个随机变量。
(或随机向量),X的概率分布就完全描述了总体中指标X的取值情况。
称X的概率分布为总体分布,称X的数字特征称为总体的数字特征。
当X为离散型随机变量时称总体为离散总体;当X为连续型随机变量时,称总体为连续总体。
当总体分布为正态分布时,称总体为正态总体,当总体分布为指数分布时,称总体为指数分布总体等。
对总体进行研究就是对总体的分布或对总体的数字特征进行研究。
1.2.2样本
从总体中抽取的一部分个体称为样本或者子样,其中所含个体的个数称为样本容量。
从总体中抽取样本的过程称为抽样。
样本和总体一样也是考虑其数量指标,如果记
为样本中第
个个体的数量指标,则
表示样本容量为n的样本,它可以看作是对总体X作n次观测的结果,它的值随着从总体中抽取的对象的不同而不同。
因此,它是随机变量,然而,一旦确定抽取对象后,我们就得到一组具体的数值
,它可以看作是随机变量
的一组观测值,有时也称
为样本。
因此,从某种意义上来说,样本具有二重性:
随机性和确定性。
注意样本的这种二重性非常重要。
对理论工作者而言,他更多注意的是它的随机性,他所得到的统计方法应有一定的普遍性,不单纯针对某些具体样本观测值。
而对应用工作者而言,他们虽然习惯把样本看成具体数字,但仍不能忘记样本的随机性,要不然对那些杂乱无章的数据无法进行统计处理。
数理统计的实质就是利用样本的信息去研究总体,去研究总体的某种性能。
样本的“好”与“不好”对推断总体影响很大。
怎样才是“好”的样本?
定义1.1设总体X的样本
满足
⑴独立性:
每次观测结果既不影响其它结果,也不受其它结果的影响;即
相互独立;
⑵代表性:
中每一个个体都与总体X有相同分布。
则称此样本为简单随机样本。
例如,在N根钢筋中抽取n根钢筋进行检测,如果进行有放回抽样即每次随机地从N根钢筋中抽取一根钢筋,检测后放回并混匀,然后再从中抽取。
这样得到的样本就是简单随机样本。
如果采取无放回抽样即每次抽取一根钢筋,检测后不放回,然后再从剩余中抽取一根或者随机地从N根钢筋中一次性抽取n根钢筋,得到的样本就不是简单随机样本。
但N很大,n相对较小时无放回抽样得到的样本可以近似看作简单随机样本。
样本
的分布称为样本分布。
如果
为简单随机样本,
为总体X的分布函数,则样本分布有比较简单的形式
=
=
(1.1)
它完全由总体X的分布函数确定。
如果X为连续总体且X的分布密度为
,则
亦为连续型随机变量,它的分布密度称为样本分布密度。
在简单随机样本的情况下,样本分布密度也有简单的形式
(1.2)
如果X为离散总体且X的概率分布为
,则
亦为离散型随机变量,它的概率分布也有简单形式
(1.3)
例1.1设有一批产品,其次品率为p,如果记“
”表示抽取一件产品是次品;“
”表示抽取一件产品是正品;那么,产品的质量就可以用X的分布来衡量。
X服从0-1分布,参数就是次品率p。
如果
为简单随机样本,求样本分布。
解:
总体X的概率分布为
所以
的概率分布为
(1.4)
例1.2设总体X服从区间
上的均匀分布,求样本
的分布密度。
解:
总体X的分布密度为
所以
的概率分布为
(1.5)
§1.3统计量
1.3.1统计量的定义
我们研究总体总是研究总体的某些特性,而样本
提供了总体比较多的信息,它是一个n维随机变量,研究起来不是很方便,并且在实际中对某些信息我们并不是感兴趣,我们可以将其压缩为我们所需要的信息,然后利用这些信息来解决实际问题。
例如,研究某种型号的灯泡的寿命X,我们并不关心X的具体分布如何,而我们关心的只是灯泡的平均寿命E(X)。
如果
为简单随机样本,直观地
反映了E(X)的值。
我们称它为统计量,它是样本的函数。
定义1.2设
为总体X的一个样本,
为
的连续函数,且不含有任何未知参数,则称T为一个统计量。
从定义可以看出,统计量是完全由样本确定的一个量,即样本有一个观测值时统计量就有一个唯一确定的值。
并且统计量是一个随机变量,它将高维随机变量问题转化为一维随机变量来处理,使问题得到简化。
我们必须理解,将高维问题转化为低维问题,信息的损失是必然的(好比将平面问题转化为直线问题),关键在于我们要求的只是研究总体的某一特定的性质时,能找到一个与这一特定性质有关的信息量不受损失的统计量,也就是说,在针对这一特定性质时,这个统计量所含的信息与整个样本是一样多。
这样损失的只是与这个特定性质无关的信息。
1.3.2常见的统计量
1.样本矩
设
为总体X的一个样本,称统计量
(1.6)
为样本均值;称
(1.7)
为样本方差;称
(1.8)
为样本的k阶原点矩,
;称
(1.9)
为样本的k阶中心矩,
。
样本均值就是样本一阶原点矩,样本二阶中心矩与样本方差只相差一个倍数。
直观地,样本均值集中反映了总体数学期望的信息,常用来推断总体数学期望。
样本方差与二阶中心矩集中反映了总体方差的信息,常用来推断总体方差。
2.顺序统计量
设
为总体X的样本,
为样本观测值,将样本观测值按从小到大的顺序排列成
定义
,它的观测值就是
,
。
不同的样本观测值就有不同的
。
因此,
为随机变量,它也是
的函数,故它是一个统计量,我们称它为第k顺序统计量。
称
为最小顺序统计量,
为最大顺序统计量。
显然有
称
为样本极差;称
为样本中位数。
样本极差R是最大顺序统计量与最小顺序统计量的函数,样本中位数是把样本分成大数部分与小数部分的分界线。
它们分别反映了总体X的波动性大小和总体平均值的信息。
例1.3设总体X为服从区间[0,
]上的均匀分布,
,
为X的样本,求
,
的分布密度。
解:
因为X为服从区间[0,
]上的均匀分布,所以X的分布函数为
的分布函数
=
(1.10)
从而
的密度函数为
(1.11)
的分布函数
(1.12)
的分布密度为
(1.13)
1.3.3充分统计量
我们先看一个例子
例:
某厂要了解其产品的不合格率p,检验员检查了10件产品,检查结果是,除前二
件是不合格品(记为
)外,其它都是合格品(记为
)。
当厂长问及检查结果时检验员可作如下两种回答:
1.10件中有两件不合格;
2.前两件不合格。
这两种回答反映了检验员对样本的两种不同的加工方法。
其所用的统计量分别为
显然,第二种回答是不能令人满意的,因为统计量
不包含样本中有关p的全部信息。
而第一种回答是综合了样本中有关p的全部信息。
因为样本
提供了两种信息:
(1)10次检验中不合格品出现了几次;
(2)不合格品出现在哪几次试验上。
第二种信息(试验编号信息)对了解不合格品率p是没有什么帮助的。
譬如在另一次检验中,最后两个产品是不合格品,其它8件都是合格品。
这两个样本观测值是不同的,但对了解p是没有什么区别的,它们提供有关p的信息是相同的。
在很多实际问题中,试验编号信息常常对了解总体或者参数是无关紧要的,所以人们常常在试验前对样本进行随机编号。
由此看来,由样本提供的第二种信息对p来说是无关紧要的。
统计量虽然没有提供试验编号信息,但它把有关p的最重要的信息综合出来了。
基于
的统计推断就能得到正确的结论,而基于
的统计推断就能导致错误的结论。
直观地说,充分统计量就是能把含在样本中有关总体或者参数一点都不损失地提取出来。
或者说充分统计量包含了有关总体或有关参数的全部信息。
用这样的统计量来推断总体或者参数是非常合适的。
下面给出充分统计的严格定义:
定义1.3设总体X的分布为一个含未知参数的分布族
,
是X的一个样本。
是一个统计量,对给定的t,样本
在
的条件下的条件分布与参数
无关,则称统计量T是参数
的充分统计量。
由此定义立即可推出下面的定理。
定理1.1设
是参数
的充分统计量,
是单值可逆函数,则
也是参数
的充分统计量。
证明:
由于
是单值可逆函数,所以事件“S=s”与事件“T=t”是相等的,由此可推得此结论。
例1.4设
是来自0-1分布
的一个简单随机样本,其中,0<
,则
是参数
的充分统计量。
事实上,统计量T的分布为二项分布
,
从而样本的条件分布为
=
=
=
=
它不含参数
了,因此
是
的充分统计量。
当总体为连续型总体时,充分统计量要用条件分布密度来描述。
奈曼(J.Neyman)和哈尔斯(P.R.Halmos)在20世纪40年代提出并严格证明了一个判别充分统计量的方法:
因子分解定理。
定理1.2(因子分解定理)设样本
的联合分布为一个含未知参数的分布族
,则
是一个充分统计量当且仅当存在这样的两个函数:
1.与
无关的非负函数
;
2.与
有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中南 大学研究生 应用 统计 课件
![提示](https://static.bdocx.com/images/bang_tan.gif)