统计中的 Bootstrap 方法是指什么与 Monte Carlo 方法有什么联系与区别.docx
- 文档编号:30827148
- 上传时间:2024-01-30
- 格式:DOCX
- 页数:5
- 大小:19.29KB
统计中的 Bootstrap 方法是指什么与 Monte Carlo 方法有什么联系与区别.docx
《统计中的 Bootstrap 方法是指什么与 Monte Carlo 方法有什么联系与区别.docx》由会员分享,可在线阅读,更多相关《统计中的 Bootstrap 方法是指什么与 Monte Carlo 方法有什么联系与区别.docx(5页珍藏版)》请在冰豆网上搜索。
统计中的Bootstrap方法是指什么与MonteCarlo方法有什么联系与区别
统计中的Bootstrap方法是指什么?
与MonteCarlo方法有什么联系与区别?
【JackDiamond的回答(73票)】:
风马牛不相及,举个简单的例子(关于一个分布的平均值)来帮你理解bootstrap和MonteCarlo,比如现在有一个分布F...1.Bootstrap:
如果我无法知道F的确切分布,手上仅有一组从F中iid抽样的样本(X_1,...,X_n),我想检验“F的均值是否为0”。
看起来这个不可能,因为我只有一个ar{X}的点估计,而并不知道ar{X}的分布。
Bootstrap的魔术是现在我把(X_1,...,X_n)这个样本当做总体,从中(有放回地)重新抽样,重抽样样本大小仍为n,那么每一次重抽样就可以得到一个“样本均值”,不断地重抽样我就得到了一个ar{X}的“分布”。
这样接下来我就可以构造confidenceinterval并做检验了。
虽然实践中bootstrap的重抽样步骤都是用MonteCarlo方法来模拟重抽样样本统计量的分布,但是严格地说这个分布原则上可以精确计算。
而如果待估统计量比较简单,bootstrap的结果有时甚至可以直接用(X_1,...,X_n)的某种统计量表示出来,从而并不需要真正地“重抽样”。
当然实际应用中绝大多数时候重抽样分布的解析表达式都会太复杂,所以用模拟代替计算。
(关于bootstrap的更多讨论见此答案下的评论,特别是LeeSam提的问题)2.MonteCarlo:
如果我知道F的确切分布,现在想计算mean(F),但是F的形式太复杂(或者我这人太懒);另一方面我又知道如何从F中抽样,于是就抽一个样本出来,拿样本均值充数。
一般来说bootstrap干的事大都跟这个例子中干的事差不多,而MonteCarlo的应用要广泛和多元化得多了。
所以两者连“区别”都谈不上,就是两码事。
【赵卿元的回答(20票)】:
谢邀。
MonteCarlo是一个更基础的想法。
在很多数学、物理或者工程问题种有很多无法写出closedform的表达式,为了能得到数值上的一个解,需要通过随机采样的方法去估计。
Bootstrap是重新改变统计学的一个想法。
统计推断的主体总是一个的随机变量分布。
在这个分布很复杂无法假设合理的参数模型时,bootstrap提供了一种非参数的推断方法,依靠的是对观测到的样本的重新抽样(resampling),其实是用empiricaldistribution去近似真正的distribution。
这两种方法从目的到用法都完全不同,有联系的话就是都涉及到计算机抽样。
==============================================================@豆豆叶觉得“bootstrap是对empiricaldistribution的montecarlo”的说法更合理,我保留意见。
我认为montecarlo和sampling还是不能互为替换的。
我认为MonteCarlo和Bootstrap更多的是两种思想,都是基于randomsampling去近似某一目标。
MonteCarlo的目标一般是一个难以计算的积分,bootstrap的目标一般是统计推断。
【马拉轰的回答(6票)】:
这个问题又该邀请@赵卿元了,我先抛砖引玉吧。
Bootstrap的中文翻译是“自助法”,由后来成为斯坦福统计系主任的BradleyEfron在70年代提出。
中心思想是通过从样本中重抽样(resample是这么翻的么?
),构建某个估计的置信区间。
抽象的说,通过样本得到的估计并没有榨干样本中的信息,bootstrap利用重抽样,把剩余价值发挥在了构建置信区间上。
Bootstrap因为其通用性的和简便性而被广泛使用(只要有样本就可以resampling,就可以bootsrap,任何分布都能做,只是消耗一些计算资源)。
特别是在各种统计(机器)学习算法大大复杂了“估计”,bootstrap的实用性太明显了。
至于Bootstrap和MonteCarlo有什么联系与区别,这两个本身不是对应的概念,怎么个区别法呢?
Bootstrap在重抽样的时候,一般采用samplewithreplacement而不是穷尽所有组合,也可以认为用到了MonteCarlo吧。
详情还是看Efron&Tibshirani那本AnIntrotoBootstrap,没有更好的参考了。
【EdisonChen的回答(6票)】:
来简单讲讲Bootstrap,(MonteCarlo法在中文维基上有了还不错的解答,题主可以参考,蒙地卡羅方法)。
Bootstrap,即“拔靴法”(不知道翻得对不对),是用小样本来估计大样本的统计方法。
举个栗子来说明好了,(我不会贴一个举栗子的图片的放心!
)你要统计你们小区里男女比例,可是你全部知道整个小区的人分别是男还是女很麻烦对吧。
于是你搬了个板凳坐在小区门口,花了十五分钟去数,准备了200张小纸条,有一个男的走过去,你就拿出一个小纸条写上“M”,有一个女的过去你就写一个“S”。
最后你回家以后把200张纸条放在茶几上,随机拿出其中的100张,看看几个M,几个S,你一定觉得这并不能代表整个小区对不对。
然后你把这些放回到200张纸条里,再随即抽100张,再做一次统计。
…………如此反复10次或者更多次,大约就能代表你们整个小区的男女比例了。
你还是觉得不准?
没办法,就是因为不能知道准确的样本,所以拿Bootstrap来做模拟而已。
【知乎用户的回答(3票)】:
bootstrap是对empiricaldistribution的montecarlo【梁世超的回答(2票)】:
parametricvsnon-parametricMonteCarlo对distribution有assumption两者都是在simulatebootstrap只要有sample就是可以simulate具体的话还是读书吧不同modelsimulate的方法都各不一样【DeniseFan的回答(1票)】:
Bootstrap是我们在对一个样本未知的情况下,只能抽取其中一部分数据集,然后对其进行n的反复抽样,来对样本进行点估计什么的。
而MoteCarlo则是从simulation的角度出发,当我们对一个distribution已知时,通过一些参数,如均值,方差来对整个distribution进行估计。
【JinguoGao的回答(0票)】:
Bootstrap是对现有的数据,不断再随机取小的样本,对每个小样处理数据,得到estimator.从而来了解estimator的variationordistribution.MonteCarlo是用一个algorithm,依次输出数组,然后对这些数组处理,得到想要的结果。
数组之间的关系由algorithm来决定。
MonteCarlo的概念更广泛。
Bootstrap其实是一种MonteCarlo.通常MonteCarlo用来求最优解,平衡值等。
---RichardSperlingwrote:
>Iwouldappreciateitifsomeonecouldclarifythedistinction>betweenMonteCarlosimulationandtheparametricbootstrap.IfI'm>notmistaken,oneuseofMonteCarlosimulationistoassessthe>samplingdistributionofanestimator.Incontrast,theparametric>bootstrapisusedtoestimatethevarianceofastatisticandits>samplingdistribution.>>Butdon'tboththeMonteCarlomethodandparametricbootstrap>requirespecifyingadatageneratingprocess?
Itisatthispoint>whereI'malittleconfusedandfailtoseethedistinctionbetween>thetwomethods.>>AlsonotethatIamnottalkingaboutthenon-parametricbootstrap.Inprincipleboththeparametricandthenon-parametricbootstraparespecialcasesofMonteCarlosimulationsusedforaveryspecificpurpose:
estimatesomecharacteristicsofthesamplingdistribution.Rememberthatthesamplingdistributionofstatisticcouldbeobtainedifwecoulddrawmanysamplesfromthepopulationandcomputeastatisticineachsample.Theideabehindthebootstrapisthatthesampleisanestimateofthepopulation,soanestimateofthesamplingdistributioncanbeobtainedbydrawingmanysamples(withreplacement)fromtheobservedsample,computethestatisticineachnewsample.Incaseoftheparametricbootstrapyouaddsomeextrarestrictionswhilesamplingfromthedata,butthatdoesnotchangethepointhere.MonteCarlosimulationsaremoregeneral:
basicallyitreferstorepeatedlycreatingrandomdatainsomeway,dosomethingtothatrandomdata,andcollectsomeresults.Thisstrategycouldbeusedtoestimatesomequantity,likeinthebootstrap,butalsototheoreticallyinvestigatesomegeneralcharacteristicofanestimatorwhichishardtoderiveanalytically.InpracticeitwouldbeprettysafetopresumethatwheneversomeonespeaksofaMonteCarlosimulationtheyaretalkingaboutatheoreticalinvestigation,e.g.creatingrandomdatawithnoempiricalcontentwhatsoevertoinvestigatewhetheranestimatorcanrecoverknowncharacteristicsofthisrandom`data',whilethe(parametric)bootstrapreferstoanempricalestimation.Thefactthattheparametricbootstrapimpliesamodelshouldnotworryyou:
anyempiricalestimateisbasedonamodel.Hopethishelps,Maarten-----------------------------------------MaartenL.BuisDepartmentofSocialResearchMethodologyVrijeUniversiteitAmsterdamBoelelaan10811081HVAmsterdamTheNetherlandsvisitingaddress:
Buitenveldertselaan3(Metropolitan),roomZ434+31205986715http:
//home.fsw.vu.nl/m.buis/-----------------------------------------__________________________________________________________SentfromYahoo!
Mail.ASmarterEmailForsearchesandhelptry:
*http:
//www.ats.ucla.edu/stat/stata/【知乎用户的回答(0票)】:
都是统计模拟方法【TJZhou的回答(0票)】:
无法完全认同高票回答。
MonteCarlo确实是一个更广泛的想法,而bootstrap过程中确实是用到了MonteCarlo的。
我比较赞同@豆豆叶的想法“bootstrap是对empiricaldistribution的montecarlo”首先看bootstrap的wiki定义Instatistics,bootstrappingcanrefertoanytestormetricthatreliesonrandomsamplingwithreplacement.它的定义中就包含了“需要重抽样”。
高票答案这段话很对:
虽然实践中bootstrap的重抽样步骤都是用MonteCarlo方法来模拟重抽样样本统计量的分布,但是严格地说这个分布原则上可以精确计算。
而如果待估统计量比较简单,bootstrap的结果有时甚至可以直接用(X_1,...,X_n)的某种统计量表示出来,从而并不需要真正地“重抽样”。
当然实际应用中绝大多数时候重抽样分布的解析表达式都会太复杂,所以用模拟代替计算。
我们需要估计一个统计量,统计量是样本的函数。
而关于样本,我们能利用的信息只有样本的empiricaldistribution。
所以当然我们的代估计值可以用empiricaldistribution表示(本来应该用真实分布表示,但只能用empiricaldistribution近似)。
但是绝大多数时候解析表达式太复杂,所以要用模拟代替计算,而bootstrap肯定是包含这个模拟过程的。
高票答案好像是认为把估计值的表达式写出来就算bootstrap了,而和MonteCarlo没关系,这是不对的。
如果这样理解,那么贝叶斯的后验估计也应该和MonteCarlo完全没关系了。
按这样的思路,贝叶斯就是拿prior和likelihood一乘再一标准化就行了,反正标准化常数也是积分能积出来的,只是有时候很难显式积出来。
然后得到后验,就能解析地求出所有待估计值了,虽然大部分情况后验是不知道什么的乱七八糟一堆。
MCMC(MarkovChainMonteCarlo)从后验抽样是可以省去的。
但是这样的想法肯定不对。
-------------------------------------------------下面基于贝叶斯派的观点来看看Bootstrap。
如果大家同意贝叶斯和MonteCarlo有紧密联系,那么bootstrap也应该和MonteCarlo有紧密联系。
假设我们有独立同分布的样本,样本的分布形式完全不知道,假设它们都是从分布里抽取出来的,按贝叶斯派的观点,应该给未知的赋一个先验。
是一个分布,所以常用的先验就是分布的分布:
DirichletProcess那么后验就是当时,此后验趋于empiricaldistribution。
要估计某统计量,此统计量是的函数,不妨记为。
我们可以通过从的后验抽样来估计注意这个过程就是MonteCarlo。
而此方法和bootstrap的联系就在于,从的后验中抽得的样本,其形式就是一次bootstrap得到的resample样本的empiricaldistribution。
我们可以通过从的后验中尽可能多地抽样来使估计准确,就像我们在bootstrap中可以尽可能多地resample来使估计准确。
从后验中抽样,或是resample(从empiricaldistribution抽样),就是MonteCarlomethod。
【陈无左的回答(0票)】:
bootstrap可以看作非参MonteCarlo再次重申非参不是没有参数,非参是无穷维参数空间,是无法想到合适参数模型时的默认模式。
bootstrap看作对样本经验分布作随机数生成,产生模拟样本。
Montecarlo的解释是依赖随机数生成而产生新样本对其进行模拟。
bootstrap完全符合这个定义。
原文地址:
知乎
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计中的 Bootstrap 方法是指什么与 Monte Carlo 方法有什么联系与区别 统计 中的 方法 什么 联系 区别
链接地址:https://www.bdocx.com/doc/30827148.html