数理统计学基本概念_精品文档PPT文档格式.pptx
- 文档编号:15492530
- 上传时间:2022-11-02
- 格式:PPTX
- 页数:66
- 大小:834.09KB
数理统计学基本概念_精品文档PPT文档格式.pptx
《数理统计学基本概念_精品文档PPT文档格式.pptx》由会员分享,可在线阅读,更多相关《数理统计学基本概念_精品文档PPT文档格式.pptx(66页珍藏版)》请在冰豆网上搜索。
1.研究对象的全体2.数据3.分布,6.1总体与个体,6.1,例6.1.1考察某厂的产品质量,以0记合格品,以1记不合格品,则总体=该厂生产的全部合格品与不合格品=由0或1组成的一堆数若以p表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:
比如:
两个生产同类产品的工厂的产品的总体分布:
样本从总体中抽取的部分个体.,称为总体X的一个容量为n的样本观测值,或称样本的一个实现.,用表示,n为样本容量.,个体组成总体的每一个元素,样品、样本、样本量:
样本具有两重性,一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此,样本是随机变量,用大写字母X1,X2,Xn表示;
另一方面,样本在抽取以后经观测就有确定的观测值,因此,样本又是一组数值。
此时用小写字母x1,x2,xn表示是恰当的。
例6.1.2啤酒厂生产的瓶装啤酒规定净含量为640克。
由于随机性,事实上不可能使得所有的啤酒净含量均为640克。
现从某厂生产的啤酒中随机抽取10瓶测定其净含量,得到如下结果:
641,635,640,637,642,638,645,643,639,640,这是一个容量为10的样本的观测值,对应的总体为该厂生产的瓶装啤酒的净含量。
这样的样本称为完全样本。
例6.1.3考察某厂生产的某种电子元件的寿命,选了100只进行寿命试验,得到如下数据:
表6.1.2100只元件的寿命数据,表5.1.2中的样本观测值没有具体的数值,只有一个范围,这样的样本称为分组样本。
寿命范围元件数寿命范围元件数寿命范围元件数(0244(1922166(3844084(24488(2162403(4084324(48726(2402643(4324561(72965(2642885(4564802(961203(2883125(4805042(1201444(3123363(5045283(1441685(3363605(5285521(1681924(360184155213,独立性:
样本中每一样品的取值不影响其它样品的取值-X1,X2,Xn相互独立。
要使得推断可靠,对样本就有要求,使样本能很好地代表总体。
通常有如下两个要求:
随机性:
总体中每一个个体都有同等机会被选入样本-Xi与总体X有相同的分布。
-也称代表性,同分布性。
样本的要求:
简单随机样本,若总体X的样本满足:
一般,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是,
(1)与X有相同的分布,
(2)相互独立,则称为简单随机样本.,简单随机样本,N/n10.,设总体X的分布函数为F(x),则样本,若总体X的密d.f.为f(x),则样本,的联合d.f.为,的联合分布函数为,6.2.1经验分布函数,6.2样本数据的整理与显示,设X1,X2,Xn是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为x
(1),x
(2),x(n),则称X
(1),X
(2),X(n)为有序样本,用有序样本定义如下函数,大数定律的应用,则Fn(x)是一非减右连续函数,且满足,Fn()=0和Fn()=1,由此可见,Fn(x)是一个分布函数,并称Fn(x)为经验分布函数。
例6.2.1某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重(单位:
克)351347355344351,x
(1)=344,x
(2)=347,x(3)=351,x(4)=354,x(5)=355,这是一个容量为5的样本,经排序可得有序样本:
其经验分布函数为,由伯努里大数定律:
只要n相当大,Fn(x)依概率收敛于F(x)。
0,x3440.2,344x347Fn(x)=0.4,347x3510.8,344x3471,x355,更深刻的结果也是存在的,这就是格里纹科定理。
定理6.2.1(格里纹科定理)设X1,X2,Xn是取自总体分布函数为F(x)的样本,Fn(x)是其经验分布函数,当n时,有,PsupFn(x)F(x)0=1,格里纹科定理表明:
当n相当大时,经验分布函数是总体分布函数F(x)的一个良好的近似。
经典的统计学中一切统计推断都以样本为依据,其理由就在于此。
6.2.2频数-频率分布表,样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。
例6.2.2为研究某厂工人生产某种产品的能力,我们随机调查了20位工人某天生产的该种产品的数量,数据如下,
(1)对样本进行分组:
作为一般性的原则,组数通常在520个:
K=1+3.3log(n),
(2)确定每组组距:
近似公式为组距d=(最大观测值最小观测值)/组数;
(3)确定每组组限:
各组区间端点为a0,a1=a0+d,a2=a0+2d,ak=a0+kd,形成如下的分组区间-含下不含上a0,a1),a1,a2),ak-1,ak),对这20个数据(样本)进行整理,具体步骤如下:
其中a0略小于最小观测值,ak略大于最大观测值.,(4)统计样本数据落入每个区间的个数频数,并列出其频数频率分布表。
表6.2.1例6.2.2的频数频率分布表,组序分组区间组中值频数频率累计频率(%)1147,157)15230.15152157,167)16290.45603167,177)17250.25854177,187)18220.10955187,197)19210.05100合计201,6.2.3样本数据的图形显示,一、直方图,直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:
频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。
凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。
把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。
如:
二、茎叶图,数值分开茎和叶11211|211和2,例5.2.3某公司对应聘人员进行能力测试,测试成绩总分为150分。
下面是50位应聘人员的测试成绩(已经过排序):
我们用这批数据给出一个茎叶图,见下页。
图5.2.3测试成绩的茎叶图,在要比较两组样本时,可画出它们的背靠背的茎叶图。
注意:
茎叶图保留数据中全部信息。
当样本量较大,数据很分散,横跨二、三个数量级时,茎叶图并不适用。
6.3.1统计量与抽样分布,6.3统计量及其分布,当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。
定义6.3.1设X1,X2,Xn为取自某总体的样本,若样本函数T=T(X1,X2,Xn)中不含有任何未知参数。
则称T为统计量。
统计量的分布称为抽样分布。
设是取自总体X的一个样本,为一实值连续函数,且不含有未知参数,称,定义,例是未知参数,若,已知,则为统计量,是一样本,是统计量,其中,则,常用的统计量,为样本均值,为样本方差,为样本标准差,为样本的k阶原点矩,为样本的k阶中心矩,例如,(5)顺序统计量与极差,为样本值,且,定义r.v.,其中,(6)样本分位数与样本中位数,样本中位数也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义:
更一般地,样本p分位数mp可如下定义:
通常,样本均值在概括数据方面具有一定的优势。
但当数据中含有极端值时,使用中位数比使用均值更好,中位数的这种抗干扰性在统计中称为具有稳健性。
(7)五数概括与箱线图,次序统计量的应用之一是五数概括与箱线图。
在得到有序样本后,容易计算如下五个值:
最小观测值xmin=x
(1),最大观测值xmax=x(n),中位数m0.5,第一4分位数Q1=m0.25,第三4分位数Q3=m0.75.,所谓五数概括就是指用这五个数:
xmin,Q1,m0.5,Q3,xmax,来大致描述一批数据的轮廓。
Rcode:
Summary(),boxplot(),注样本方差与样本二阶中心矩的不同,故,推导,2),例1从一批机器零件毛坯中随机地抽取10件,测得其重量为(单位:
公斤):
210,243,185,240,215,228,196,235,200,199求这组样本值的均值、方差、二阶原点矩与二阶中心矩.,解,令,例1,则,例2在总体中,随机抽取一个容量为36的样本,求样本均值落在50.8到53.8之间的概率.,解,故,例2,按照统计量定义:
若X1,X2,Xn为样本,则以及经验分布函数Fn(x)都是统计量。
而当,2未知时,X1,X1/等均不是统计量。
尽管统计量不依赖于未知参数,但是它的分布一般是依赖于未知参数的。
下面介绍一些常见的统计量及其抽样分布。
6.3.2样本均值及其抽样分布,思考:
在分组样本场合,样本均值如何计算?
二者结果相同吗?
X=(X1+Xn)/n,定理6.3.2数据观测值与均值的偏差平方和最小,即在形如(Xic)2的函数中,,样本均值的基本性质:
定理6.3.1若把样本中的数据与样本均值之差称为偏差,则样本所有偏差之和为0,即,最小,其中c为任意给定常数。
样本均值的抽样分布:
定理6.3.3设X1,X2,Xn是来自某个总体的样本,,为样本均值。
(1)若总体分布为N(,2),则,的精确分布为N(,2/n);
XAN(,2/n),这里渐近分布是指n较大时的近似分布.,若总体分布未知或不是正态分布,但E(X)=,Var(X)=2,则n较大时的渐近分布为N(,2/n),常记为。
6.3.3样本方差与样本标准差,称为样本标准差。
定义6.3.3,称为样本方差,,其算术平方根,在n不大时,常用作为样本方差,其算术平方根也称为样本标准差。
在这个定义中,,(XiX)2,n1称为偏差平方和的自由度。
其含义是:
能自由取值,因为,只有n1个数据可以自由变动,而第n个则不,(XiX)=0.,称为偏差平方和,,中,样本偏差平方和有三个不同的表达式:
(XiX)2=Xi2(Xi)2/n=Xi2nX,它们都可用来计算样本方差。
思考:
分组样本如何计算样本方差?
样本均值的数学期望和方差,以及样本方差的数学期望都不依赖于总体的分布形式。
定理6.3.4设总体X具有二阶矩,即E(X)=,Var(X)=2,X1,X2,Xn为从该总体得到的样本,,X,和S2分别是样本均值和样本方差,则,E(X)=,Var(X)=2/n,E(S2)=2,当总体关于分布中心对称时,我们用,和S,刻画样本特
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理 统计学 基本概念 精品 文档