SPSS数据分析教程-第4章-概率论初步PPT资料.ppt
- 文档编号:14307360
- 上传时间:2022-10-21
- 格式:PPT
- 页数:37
- 大小:571KB
SPSS数据分析教程-第4章-概率论初步PPT资料.ppt
《SPSS数据分析教程-第4章-概率论初步PPT资料.ppt》由会员分享,可在线阅读,更多相关《SPSS数据分析教程-第4章-概率论初步PPT资料.ppt(37页珍藏版)》请在冰豆网上搜索。
学习如何从数据集中选择符合条件的个案。
4.1离散型随机变量的仿真,4.1.1均匀分布的随机数,假设我们有一个正方形,它被均匀的分为4个相同大小的小正方形。
现在从正方形的中心上方随机地投掷一颗玉米粒1000次,假设每次投掷的玉米粒都等可能的落在4个小正方形中的一个之中。
问题是:
落在1号、2号、3号和4号正方形中的情况如何呢?
模拟投掷的过程
(1),第1步:
设置随机数种子选择【转换】【随机数字生成器】,勾选“设置起点”,并在“固定值”下的“值”中输入一个用户给定的数值。
第2步:
生成均匀分布的随机数,等可能的产生1,2,3和4这四个数共计1000个.选择【转换】【计算变量】,在“目标变量”框中输入变量名“Spinn”,在“数字表达式”框中输入TRUNC(RV.UNIFORM(1,5),然后单击【确定】按钮.,模拟投掷的过程
(2),第3步:
然后分析这四个数出现的次数和相对频率。
选择【分析】【描述统计】【频率】,随机数分析
(1),随机数分析
(2),4.1.2正态分布的随机数,正态分布的随机变量是连续型随机变量,它的可能取值是所有实数。
数据分析的许多模型和理论都要求数据服从正态分布,因此正态分布的随机数在模拟中有广泛的应用。
一、生成正态分布的随机数,第1步:
设置随机数种子为123456第2步:
选择【转换】【计算变量】,应用函数RV.Normal(0,1)。
SETSEED=123456.COMPUTERnorm01=RV.NORM(0,1).SAVEOUTFILE=D:
SPSSIntrodataSim_norm.sav/COMPRESSED.EXECUTE,生成随机数示意图,二、分析这些正态随机数的性质,绘制随机数的序列图,有几种方法方法1:
选择【图形】【图表构建程序】,选择“条”方法2:
选择【分析】【预测】【序列图】方法3:
选择【图形】【旧对话框】【线图】,该样本数据的确是从正态分布的总体中随机抽取的呢?
绘制随机数的带有正态曲线的直方图,4.2理论分布,除4.1中的均匀分布和正态分布外,常见的分布还有二项分布、负二项分布、泊松分布、指数分布、t分布等。
SPSS软件中提供了这些常见分布的分布函数、概率分布函数和概率密度函数。
SPSS的PDF与非中心PDF函数族提供了相关分布的概率分布函数或者概率密度函数,CDF与非中心CDF函数族提供了相关分布的累积概率分布函数(或简称分布函数)。
而逆DF函数族则给出了相应分布的分位数。
4.2.1二项分布的分布函数和概率,如果随机试验只有两个可能的结果,设该试验中成功的概率为p。
如果将该试验独立地重复进行次n次,这一串重复的独立试验称为重n贝努力试验。
如果用X表示在这次试验中成功的次数,则随机变量X服从二项分布,其分布函数为,CDF.BINOM(x,10,0.25),该函数用于计算出x所对应的累计概率,即:
(1)这里x表示不大于的最大整数。
PDF.BINOM(x,10,0.25)计算而X取某个特定值i的概率为:
(2),由上面
(1)式计算出的为分布函数的值;
如果是离散随机变量,
(2)式给出的为概率值,它是随机变量X取各个离散值0,1,2,10的概率。
函数CDF.BINOM(x,10,0.25)用于计算n=10,p=0.25的二项分布下x的分布函数值或者称为累计概率。
二项分布的概率分布图,4.2.2连续分布的随机变量正态分布,连续型随机变量的任何两个可能取值之间都有无限多个可能的取值,因此所有可能取值是不能列举的,也不能给随机变量的某可能取值赋给一个唯一的概率值。
一般考虑连续型随机变量的分布函数(即累积概率函数(ProbabilityCumulativeFunction,CDF)和密度函数(ProbabilittyDensityFunction,PDF)。
SPSS的CDF函数族给出的就是分布函数的值。
CDF.NORMAL(x,0,1)是给出均值为0,标准差为1的正态分布变量x的累计概率分布函数值。
PDF.NORMAL(x,0,1)是给出均值为0,标准差为1的正态分布变量x的密度函数值。
可以画出累计概率分布函数的线图,可以画出正态分布变量x的密度函数的线图,比较不同参数的正态分布函数,4.3经验分布,把观测到的样本数据的相对频率分布称为经验分布,根据概率的频率定义,当样本量足够大时,频率稳定到概率。
实际问题中样本数据所服从的分布常常是未知的,我们只能通过样本数据的经验分布来了解数据的分布情况。
SPSS描述性统计菜单的的频率过程中把频率称为百分比,而把结果出现的次数称为频率。
频率,数据GSS2004.sav,它记录了美国2004年社会调查的数据,有调查对象的年龄、性别、受教育年限、最高学历、子女个数等。
这里我们考察调查对象子女个数的分布情况。
频率表,选择【分析】【频率】,把变量“CHILDS”选到右侧的“变量(V)”框中。
相对频率直方图,4.4抽样分布,由于样本选择的随机性,样本统计量也是随机变量,不同的样本,样本统计量的取值也可能不同。
每个随机变量都有其分布性质,例如描述性统计量均值、方差、分位数等。
样本统计量的分布称为抽样分布。
模拟从同一个分布已知的总体中随机抽取若干不同的样本,然后观察样本统计量的分布情况。
从一个均值为50、标准差为10的正态总体中随机抽取80个容量为50的样本。
Sample80.sps,INPUTPROGRAM.VECTORX(80).LOOP#I=1TO50.LOOP#J=1TO80.COMPUTEX(#J)=RV.NORMAL(50,10).ENDLOOP.ENDCASE.ENDLOOP.ENDFILE.ENDINPUTPROGRAM.EXECUTE.,4.5置信区间,SPSS的许多过程都会给出相关统计量的置信区间。
例如在【描述】菜单中,它会给出均值的置信区间;
在回归分析中,它会给出拟合值和预测值的置信区间,也可以给出所估计的回归系数的置信区间。
谢谢!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 数据 分析 教程 概率论 初步