抽样技术之不等概率抽样概述.pptx
- 文档编号:30840854
- 上传时间:2024-01-31
- 格式:PPTX
- 页数:67
- 大小:502.93KB
抽样技术之不等概率抽样概述.pptx
《抽样技术之不等概率抽样概述.pptx》由会员分享,可在线阅读,更多相关《抽样技术之不等概率抽样概述.pptx(67页珍藏版)》请在冰豆网上搜索。
第七章不等概抽样,放回不等概率抽样不放回不等概率抽样利用软件进行抽样和计算案例分析,第一节不等概率抽样概述,一、不等概率抽样的必要性1、在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。
等概率抽样的特点是总体中的每个单元在该总体中的地位(或重要性)相同,在抽样时对每个单元采取的是“不偏不倚”的态度。
等概率抽样不仅实施简单,而且相应的数据处理公式也简单。
但是在许多实际问题中,我们还需要使用不等概率抽样(samplingwithunequalprobabilities)。
2、抽样单元在总体中所占的地位不一致:
例如:
要反映某小麦品种的优良情况,以村作为抽样单位,但各村的种植面积不同,一些种植面积大的村庄在抽样中是否被抽中对推断总体的结果有很大影响,所以让“大单元”被抽到的概率大,“小单元”被抽到的概率小,这样能够大大提高样本的代表性,减少抽样误差。
不等概率抽样概述,不等概率抽样的特点,2、不等概率抽样的主要优点是由于使用了辅助信息,提高了抽样策略的统计效率,能显著地减少抽样误差。
1、凡需使用不等概率抽样的场合,必须提供总体单元的某种辅助信息。
例如:
每个单元的“大小”度量Mi。
注意:
比估计和回归估计是估计方法用到了辅助信息,本章是抽样方法用到辅助信息.,不等概率抽样的特点,3、抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要存储总体中每一个单元的度量大小;4、并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量;5、抽样及估计(特别对不放回抽样)相当复杂;6、当单元大小度量不准确或不稳定时不适用。
6,不等概率抽样的分类,放回不等概抽样:
按照总体单元的规模大小来确定在每次抽中的概率。
抽取后放回总体,再进行下一次抽样,每次抽样都是独立的。
这种抽样称为放回不等概抽样(samplingwithprobabilitiesproportionaltosizes,简称PPS抽样)不放回的不等概抽样:
每次在总体中对每个单元按入样概率进行抽样,抽出的样本不再放回总体,因此,在抽取了第一个单元后,余下的单元再以什么概率被抽取就较复杂。
这种抽样不是独立的,无论是抽样方法还是方差估计,都要比放回抽样繁复得多。
不放回抽样通常称为PS抽样。
放回不等概抽样,PPS抽样:
有放回的不等概抽样,在PPS抽样中,赋予每个单元与Mi相等的代码数,将代码数累加得到M0,每次抽样都等概产生一个1,M0之间的随机数,设为m,代码m所对应的单元被抽中。
放回不等概率抽样实施方法,1.代码法,例5.1设某个总体有10个单元,相应的单元大小及其代码数如下表,在其中产生一个n=3的样本。
假设在1,738中等概产生第一个随机数为354,再在1,738中产生第二个随机数为553,最后在1,738中产生第三个随机数为493,则它们所对应的第5,7,6号单元被抽中。
Mi*10,例:
假设有10个乡,每个乡的村庄数不同,按pps抽3个乡,结合一下整群抽样、多阶段抽样,2.拉希里法(二次抽取法)(统计学家Lahiri最先提出):
设M1,M2,MN为单元的规模,放回不等概率抽样实施方法,拉希里法抽样举例:
例5.1中,M=150,N=10.在1,10,1,150中分别产生(i,m)如下:
第一次(3,121),M3=1577,第7号单元入样;第四次(5,127),M5=7877,第4号单元入样;第六次(9,60),M9=6060,第9号单元入样;因此第4,7,9号单元被抽中。
三、Hansen-Hurwitz(汉森-郝维茨)估计量及其性质:
因为是放回抽样,所以是独立样本,数理统计的结论可以在这里应用。
放回不等概率抽样对总体特征的估计,对上述结论加以说明:
汉森-赫维茨估计量估计给出总体总量的估计,如果对总体均值估计可按下公式:
例:
某县农业局要调查全县养猪专业户今年生猪的出栏头数,现有全县365个养猪专业户去年的生猪存栏数,各专业户的规模相差较大,决定以放回方式按与各养猪专业户上年末生猪存栏头数成比例的PPS抽样从中抽取30户进行调查,结果如下,已知全县养猪专业户上年末生猪存栏头数为9542头,试估计该县养猪专业户生猪今年出栏总头数和抽样标准误。
(摘自:
“应用抽样技术”李金昌),其中第2、19号被抽中两次,解:
根据题中所给资料,n=30,M0=9542,利用汉森-郝维茨估计量,则有:
例5.2:
某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。
考虑到时间紧,准备采用抽样调查来推算当月完成的利润。
根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本。
773861.05,相对误差达到20时所需样本量:
解:
有放回不等概整群抽样,群规模不等的整群抽样中,可采用等概和不等概抽样;如果群规模差异不大,可采用等概抽样;如果群规模差异较大,各个群对总体的影响不同,此时采用不等概抽样。
把群规模作为辅助信息,能提高估计精度,而且方差估计形式简单。
但在抽样时要掌握辅助信息,比简单随机复杂。
假设群的抽取是按与Mi成比例的pps抽样,每次按Zi=Mi/M0(i=1,2,N)的概率抽取第i个群。
由汉森-赫维茨估计量,pps整群抽样总体总值估计量为,例某企业欲估计上季度每位职工的平均病假天数。
该企业共8个分厂,现用不等概整群抽样拟抽取3个分厂,并以置信度95%计算其置信区间。
分厂编号职工人数Mi累积区间,12345678,12004502100860284019103903200,11200120116501651375037514610461174507451936093619750975112950,有放回不等概整群抽样,解:
n3,采用PPS抽样,随机抽取的3个数为02011,07972,10281。
调查结果如下:
有放回不等概整群抽样,注:
1、对于群规模不等的整群抽样,采用不等概PPS抽样,可以得到总体目标量的无偏估计,2、估计量和估计量的方差都有比较简明的形式,估计的效率也比较高,是值得优先考虑采用的方法,3、使用条件:
在抽取样本前,要掌握各群规模的信息。
多阶段有放回不等概抽样,当初级单元规模不等时,常采用不等概抽样。
对初级单元进行PPS抽样时,事先规定每个初级单元被抽中的概率Zi=Mi/M0(i=1N),可利用代码法,对抽中的初级单元再抽取mi个二级单元;如果对第二阶段实行简单随机抽样,且抽相同的样本数(第一阶段抽出来的一般是单元的规模较大,而且彼此差别不大),此时估计形式较简单,且是自加权的。
这是实际中经常采用的多阶段不等概抽样法。
多阶段有放回不等概抽样,实际工作中,如果初级单元大小不等,人们喜欢:
1、第一阶段抽样时按放回的与二级单元成比例的PPS抽样;2、第二阶抽样进行简单随机抽样,且抽的样本量相同,这样得到的样本是自加权的,估计量的形式也非常简单。
例:
某县农村共有14个乡509个村,在实现小康的进程中欲计算该县农村的恩格尔系数,即居民户的食品支出占总支出的比例。
首先要调查全县的食品总支出,现采用了二阶段抽样,第一阶段先在14个乡中,按村的数目多少进行PPS抽样,共抽了5个乡,第二阶段在抽中的乡中随机地抽选6个村,然后对抽中的村做全面调查,取得的数据如下,估计全县的食品支出总额及其标准误。
多阶段有放回不等概抽样例题分析,多阶段有放回不等概抽样例题分析,误差有点偏大,要想提高估计精度,必须增加第一阶段的样本量,例;某小区有10座高层建筑,每座高层建筑拥有的楼层数如下表,,用二阶段抽样方法抽出10个搂层进行调查,第一阶段PPS抽出5座建筑,第二阶段按简单随机抽样对每座建筑抽取两个楼层,具体数据如下表所示,对小区总居民进行估计,并给出估计的误差。
多阶段有放回不等概抽样例题分析,解:
已知n=5,m=2,M0=145,这时,多阶抽样的总样本量可以这样确定:
1.根据简单随机抽样时应抽样本量2.再乘以设计效应deff获得。
多阶抽样与简单随机抽样相比其效率比较低,deff应该大于1。
实际工作中,可取deff的经验数据。
不同项目的deff不同。
下面是一案例分析,多阶有放回不等概抽样,例:
某调查公司接受了一项关于全国城市成年居民人均奶制品每天至少喝一杯奶的人数的比例情况的调查。
确定抽样范围为全国地级及以上城市中的成年居民。
成年居民指年满18周岁以上的居民。
第一步:
确定抽样方法。
调查公司决定采用多阶抽样方法进行方案设计,调查的最小单元为成年居民。
确定调查的各个阶段为城市、街道、居委会、居民户,在居民户中利用简单随机法抽取成年居民。
第二步:
确定样本量及各阶样本量的配置。
按简单随机抽样时,在95置信度下,绝对误差为5,取使方差达到最大时的消费奶制品的居民比例为50,则全国样本量应为:
根据以往调查的经验,估计回答率b=80,因此调整样本量为:
多阶抽样的效率比简单随机抽样的效率低,这里取设计效应deff=3.2,则在全国范围内应调查的样本居民为:
各阶的样本量配置为:
初级单元:
20个样本城市;二级单元:
每个样本市内抽4个街道,共80个街道;三级单元:
每个样本街道内抽2个居委会,共160个居委会;四级单元:
每个样本居委会内抽10个居民户,1600个居民户。
在样本居民户内,利用随机表抽1名成年居民。
第三步:
确定抽样方法。
第1阶,在全国城市中按与人口数成比例的放回的不等概抽样,即PPS抽样(probabilitypropotionaltosize)。
第2阶和第3阶分别按与人口数成比例的不等概等距抽样。
以第2阶为例,在某个被抽中的样本城市中,将其所属的街道编号,搜集各街道的人口数,赋予每个街道与其人口相同的代码数;根据该市总人口数除以样本量4,确定抽样间距;然后对代码进行随机起点的等距抽样,则被抽中代码所在的街道为样本街道。
第4阶,分别在每个样本居委会中,按等距抽样抽出10个民户。
即根据居委会拥有的居民户数除以样本量10得到抽样距,然后随机起点等距抽样。
在每个样本居民户中,调查员按随机表抽取1名成年居民,第四步:
推算方法。
记各样本城市的80位样本居民中,每天至少喝一杯奶的人数为ai,全国1600名居民组成的样本中,每天至少喝一杯鲜奶的人数为,样本是自加权的,故成年居民每天至少喝一杯鲜奶所占比例为:
的方差的估计为:
其中pi是各样本城市每天至少喝一杯鲜奶的人数所占比例:
2不放回的不等概率抽样,1、有放回不等概率抽样,无论从实施上还是从估计计算以及精度估计都显得十分方便。
但是,一个单元被抽中两次以上总会使样本的代表性打折扣,从而引起抽样误差的增加。
2、不放回不等概率抽样,是指在抽样的过程中被抽到的单元不能再被抽中,这种抽样要求总体中第i个单元的入样概率为i,这就是所谓的抽样。
3、因为在抽取了第一个单元后,余下的(N-1)个单元以什么样的概率参与第二次抽样就很复杂;再在抽第三个样本时又面临新问题,如此下去,一是抽样实施的复杂,二是估计量及其方差计算的复杂。
因此,在本节仅讨论n固定,尤其是n=2时的情形。
不放回不等概率抽样,一、PS抽样与包含概率包含概率:
在不放回抽样中,每个单元被包含到样本的概率也即入样概率i及任意两个单元都被包含到样本中的概率ij,特别的,如果每个单元入样概率与单元大小成比例的概率抽样,称这种情形为严格的抽样,实施起来复杂,也不易求得,方差的估算很困难,只有在n=2时有简单的算法;当n2时可以通过分层,每层中进行严格的n=2抽样,不放回不等概率抽样,2、HorvitzThompson(霍维茨汤普森)估计量,HT估计量与HH估计量是极其相似的。
因为,它们在形式上似乎完全一样,但是HH估计量中的yi可以互相重复,而HT中的yi却是绝对地互不相同。
当n固定时,HT估计量的方差为:
例5.3假设有5个居委会,每个居委会的住户数X已知但常住居民未知,我们从5个居委会抽出2个来估计常住居民的总人数。
如下表:
10种不同的样本分别利用霍维茨汤普森估计量和简单随机抽样简单估计计算对总量的估计如下表:
1、从均值上来看,它们都是无偏估计,均值都是2520.2、为比较估计量的优劣,需计算估计量的方差,这用到每个样本被抽出的概率。
3、不放回不等概率样本,每个样本被抽出的概率计算很复杂。
不过从直观上来看,例子用霍维茨汤普森估计量比简单随机抽样简单估计要精确,结果分析:
(1)Brewer(布鲁尔)方法(1963),假设对所有,均有,现抽取两个单元,最通常的方法是逐个选取。
几种严格的不放回不等概抽样,其中,第一次第i个单元被抽中的概率为:
取出第一个不放回,假设第一次抽取了第i个单元,第二次单元j被抽中的概率为:
这种抽样方法可以保证每个单元入样概率为:
其中,对总值和方差的估计如下:
采用霍维茨汤普森估计量,例5.4对于例5.3,如果抽样是按布鲁尔法的,则其所有可能样本的如下表:
Brewer抽样方法举例:
例:
某县有四个乡,粮食总产量和种植面积如下表:
用布鲁尔方法抽取两个乡作样本估计本县的总产量,验证抽选结果符合PS的要求,并计算估计量方差。
Brewer法第一个单元的被抽中概率,本题计算过程:
Brewer法2个单元的抽选办法:
第二次抽中第j个单元(第一次抽中第i个单元)的概率为,第一次抽中第i个单元,第二次抽中第j个单元的联合概率为,假定第一次抽中第1个单元,第二次抽中第2个单元,其联合概率为:
第一次抽中第1个单元,第二次抽中第4个单元的联合概率为,第一次抽中第1个单元,第二次抽中第3个单元的联合概率为,第一次抽中第2个单元,第二次抽中第1个单元的联合概率为,第一次抽中第2个单元,第二次抽中第3个单元的联合概率为,依次可得各种可能被抽中的概率如下表,10.053460.146540.22Z1,同理可验证20.126750.273260.42Z2,30.24950.35050.62Z3,40.57030.229710.82Z4,所以抽选结果符合ps要求,说明:
本题是总体信息已知,对书中的结果做了验证。
我们在实际工作中只抽到了一个PS样本,比如说,抽到了第3、4个单元,只用计算p34,p43,算出34,其余不用计算。
然后代入公式进行计算即可,
(2)Durbin(德宾)方法(1967),于是可以计算出,(7.19),(7.18),Durbin方法中的与Brewer方法中的完全一样这表明两种不等概率抽样方法其实是等价的。
(7.20),总体差异不要太大逐个抽取:
关键:
第一个单元与成比例的概率抽取剩余的N-1个单位不放回等概抽取,n2条件下严格的PS抽样,水野方法,非严格的ps抽样,在实际工作中,有时采用非严格的ps抽样:
耶茨-格伦迪逐个抽取法:
包含概率与单元大小并非严格成比例,即下式不严格成立,操作简单,想法自然较常用以概率zi抽取第一个样本单元,不妨记为第一个;以概率zi/(1-z1)在剩下的N-1个单元中抽第二个,不妨记抽中的为第二个;再以概率zi/(1-z1-z2)在剩下的N-2个单元中抽取第三个,以此类推,直到抽出n个单元。
i与单元大小并非严格成比例。
耶茨-格伦迪方法的入样概率不容易计算,因而不能用霍维茨汤普森估计量,采用Raj估计量,例:
总体N=10个单元组成,M0=30,要在总体中按不等概逐个抽取法抽出个样本单元,调查后请对总体进行推算:
1.如果在1,30范围里产生随机数,则代码所在的号单元被抽中;2.如果在1,26范围里产生的随机数是,则则代码所在的号单元被抽中;3.如果在1,24范围里产生的随机数是,则代码所在的号单元被抽中;,如果调查知:
y4=150,y8=100,y3=200,,具体抽样过程:
放回不等概率抽样(PPS)(重点掌握)不放回不等概率抽样(PS)利用软件进行抽样和计算,本章小结:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 技术 不等 概率 概述