欢迎来到冰豆网! | 帮助中心 分享价值,成长自我!
冰豆网
全部分类
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • 党团工作>
  • ImageVerifierCode 换一换
    首页 冰豆网 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    社会统计学复习整理Word文档格式.docx

    • 资源ID:22078691       资源大小:266.18KB        全文页数:31页
    • 资源格式: DOCX        下载积分:12金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要12金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    社会统计学复习整理Word文档格式.docx

    1、定序-定序G否【-1,1】Z定类-定距定序-定距Eta无F定距-定距r对称r第二节 简化一个变项的分布一、 定类变量1. 统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。2. 统计表必备的内容:(1) 表号、标题(2) 标识行:变量名、对应数据说明(频次、频率)(3) 主题行:变量取值的统计数据(4) 表尾:如果是引用必须说明资料来源二、 定序变量1. 适合定序变量的简化资料的方法(1) 累加次数:把次数逐渐相加起来,分为向上累加次数(cf)和向下累加次数(cf)。(2) 累加频率:把各级的百分率逐渐相加。也分为向下累加百分率和向下累加百分率。2.cf的计算方法就是按照变量取值的等

    2、级从低往高逐层相加。3.cf计算方法就是按照变量取值的等级从高往低逐层相加。 cf表示低于某个等级的频数有多少 cf表示高于某个等级的频数有多少三、 定距变量1. 定距变量的简化工具是:分组、直方图和折线图。2. 连续型定距变量的分组统计(1) 组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。(2) 组限:包括上限(up)和下限(low)(3) 标识下限和标识上限,例500699(4) 真实下限:标识下限0.5;真实上限:标识上限+0.5.(5) 组距:真实上限与真实下限之差。(6) 组中值:真实上限与真实下限的平均值。第三节 集中趋势测量法1. 集中趋势:用一个典型的变量值或特

    3、征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。2. 集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。1. 众值(Mode)Mo:用具有频数最多的变量的取值来表示变量的集中值。2. 众值的特征:(1):众值理论上可以用于定类、定序和定距三个层次的变量来描述集中趋势,但是由于众指不精确,一般只用于定类层次的变量。(2):众值最好找,是最容易求出的值,但它精确度也是最差的。二、定序变量 1.中位值(Md)。 2.分组数据求中位值公式:Md=L+(n/2- cf/n)(U-L) L:中位值的真实下界值 U:中位值的真实上界值 n:中位值组的频数

    4、 cf:低于中位值所在组的累加(向上)频次 N:调查总数 Md位值:N/2二、 定距变量1. 均值(Mean):将变量的各个数值相加起来,除以总个数,求取一个平均值的数值,一般用x来表示。2. 均值的特征: 仅适合定距层次的变量 它最灵敏,预测的精确度最高 对资料所提供的信息运用得最充分3. 均值的求法(一) 原始数据求均值:X=X1/N (X表示变量x的均值;X1表示变量观察值的总和。)(二) 根据频次分布求均值:x=(x表示变量X的均值;表示变量的每一个取值和该变量频数相乘的和;表示把变量的每个取值下的频次都加起来,即调查总数N) (三) 分组数据求均值: (n1表示每组次数,b表示每组的

    5、组中值,表示个案数目) 第四节 离散趋势测量法 离散趋势测量法:是求出一个值来表示个案与个案之间的差异情况。 离散趋势或离散特征可以告诉我们估计值误差的大小。一、 定类变量(异众比率V)V就是非众值的次数与全部个案数目的比率。V= (N-全部个案数目;-众值的次数) V值越小,众值代表性越好。1. 极差(R)观察的最大值与最小值之差。2. 四分互差:将数值排序,分为四个等分,第一个四分位置的值与第三个四分位置的值的差异。四分位差Q=Q75-Q25(一) 未分组数据:2 2 3 4 6 9 10 10 11 13 15Md的位置=N+1/2=11+1/2=6Q25的位置=N+1/4=11+1/4

    6、=3(第三位数)Q75的位置=(N+1)=(11+1)=9(第九位数)所以,四分位差Q= Q75-Q25=11-3=8(二) 分组数据1. 中位值公式=Md=L+(- cf)/n(U-L)2. Q25=L+( L:四分之一位值组的真实下界值四分之一位值组的真实上界值四分之一位值组的频数 cf:低于四分之一位值组的向上累加频次 Q25位置=N/4;3. Q75=L+(四分之三位值组的真实下界值四分之三位值组的真实上界值四分之三位值组的频数低于四分之三位值组的向上累加频次 Q75位置=3N/4;(一) 标准差与方差= (即对均值的偏差平方均值的平方根)=(二) 根据未分组的频次分布求方差N-调查总

    7、数;Xi-表示变量的每个取值;ni-表示每个取值的频次(三) 分组数据求方差用组中值代替bi代替xi代入公式中第三章 概率一、 概率 1.不可能事件的概率:P(O)=0 2.必然事件的概率:P(S)=1 3.随机事件的概率:0P(E)1二、两个重要概念 1.普查:对统计总体的全部单位进行调查以搜集资料统计资料的工作。 2.抽查:按照某种方法以总体中抽取一部分样本进行调查,以搜集统计资料的工作。三、频率分布于概率分布的关系 1.频率分布是实验值,是可以变化的,称之为统计分布或经验分布。 2.概率分布是理论值,是唯一的,称之为理论分布。 3.当观测次数很大时,随机变量取值的频率接近于其概率,这时随

    8、机变量的统计分布与理论分布将大致相符。四、总体均值和方差 1.总体均值(E):随机变量各取值分别乘取值的概率的总和。 E()=PiXi 2.总体方差(D):就是随机变量偏离总体均值的程度。 D=S=E(X)-E(x) 3.总体均值和样本均值的区别: 总体均值是对研究对象进行普查后得出的均值。 样本均值是对从总体中抽取的样本数据计算出来的均值。 4.总体方差与样本方差的区别: 总体方差是对研究对象进行普查后,利用数据算出来的方差。 样本方差是根据从总体中抽取出的样本的调查总数据,计算出来的方差。 5.总体均值方差和样本均值方差表示法 1.总体均值E=,总体方差D=,总体标准差= 2.样本均值=x

    9、,样本方差=s,样本标准差=S 6.结论 1.通过普查,可以得出概率、总体均值E()、总体方差D(),这些值我们称为参数值。 2.通过抽查,可以得出频率、样本均值x、样本方差s,这些值我们称为统计值。 3.当样本为大样本(N30),频率概率、样本均值总体均值、样本方差总体方差。 4.当样本数无穷接近总体数的时候,频率=概率、样本均值=总体均值、样本方差=总体方差。 5.统计学的任务就是如何利用统计值来推论参数值(统计推论),实现我们的研究目的。第四章 常见统计分布第一节 二点分布一、二点分布(0-1分布):就是变量的取值只有两类的分布。如:性别。二、二分变量的分布律:随机变量如果满足二点分布,

    10、则其概率分布为P(=0)=q;P(=1)=P;P+q=11P=(=Xi) qP第二节 二项分布一、 二项分布:在相同条件下进行n次独立试验,每次试验只有两种可能的结果,事件A出现的概率P(A)=P,事件A不出现的概率P(A)=1-p=q.第三节 正态分布一、 什么是正态分布?中心极限定理:对于任何变量,不管其原有分布如何,如果把它们n个加在一起,当n大于一定数之后(n30),那么其和的分布必然接近正态分布。二、正态分布密度曲线的特点 1.一个高峰 2.一个对称轴X=3.一个渐近线X轴4.正态分布曲线是单峰值对称的,因此这种分布的变量,其众值、中位值和均值是重叠的。5.正态分布下的面积为1.三、

    11、正态曲线的参数意义 1.正态分布的两个参数是(总体均值)和(总体方差)。 2.两个参数对曲线形状的影响: (1)(X)在x=处达到峰值,以直线x=为对称轴。在一定的情况下,若增大,图形右移;若减小,则左移,但形状不变。 (2)当值一定时,值越小,则对应的图形越尖越瘦。第四节 标准正态分布标准正态分布:标准正态分布就是通过公式把一般正态分布转化而来,这样把不同的正态分布都统一为(0,1)的正态分布,然后再通过查表求出两点之间的概率。公式:=1. 标准正态分布的=0,=1,其图形以=0为对称轴。2. 标准正态分布记作XN(0,1),一般正态分布记作XN(3. 标准正态分布的图形唯一的,其值可以通过

    12、查表(附表4)求得。(只有标准正态分布才能查表,如果是一般正态分布则先用公式转化为标准正态分布)4. 正态分布N()和标准正态分布N(0,1)面积之间的对应关系:当X=+时,=1当X=-时,=-1第五节 常用统计分布一、 X分布(卡方分布)设变量1、2,、k相互独立,且都服从N(0,1),则X=(1)+(2)+(k)称为自由度为K的X分布。记作:X(k)二、t分布 设随机变量和独立,且N(0,1),X(k),则随机变量t (t= ) 服从自由度为k的t分布,记作tt(k)。三、F分布 设随机变量和独立,且X(k1)X(k2),则随机变量F ( F= ) 服从自由度(k1,k2)的分布记作FF(

    13、k1,k2)。第五章 参数估计一、关于抽样的一些概念1.总体:构成总体的所有元素的集合,元素则是构成总体的最基本的单位。2.样本:从总体中按一定方式抽取出来的一部分元素的集合。3.抽样:从总体中,按一定的方式选择或抽取样本的过程。4.抽样单位:一次直接抽样所使用的基本单位。二、统计推论1.统计推论:根据局部资料(样本资料)对总体进行推断的过程。2.样本资料的特点:(1)样本资料来源于总体,因此局部资料的特性在某种程度上能反映总体的特征。(2)由于抽样的随机性,则抽样的结果有可能不等于总体的结果。(3)当样本达到一定规模的时候(大样本),呈现规律性。3.统计值:从样本中计算出来的数值。4.参数值

    14、:总体的数值。5.统计推论的内容分为两个部分:(1)通过样本的统计值对总体的未知参数进行估计,称为参数估计。(2)通过样本对总体的某种假设进行检验,称为假设检验。三、抽样分布1.样本均值 的分布:我们按照简单随机抽样的方法,从总体中抽取样本,因为每一个个体被抽中的机会具有随机性,所以每一次抽出的样本其均值都不同,那么在同一个总体中,抽取n次就有n个样本均值( ),而样本均值 的分布就是这n个样本均值的分布。2.样本方差S2的分布:就是n个样本方差的分布。第三节 参数的点估计点估计:直接用样本计算出来的统计值来估计总体的参数值,由于它只是一个点值,所以称参数的点估计。一、 总体参数的点估计公式1

    15、.总体均值的点估计值为样本均值XX=2.总体方差2 的点估计值为样本方差S2S2 =3.总体标准差的点估计值为样本标准差S第五节 正态总体的区间估计一、 区间估计:通过样本计算出一个范围来对总体未知参数进行估计。二、 区间估计的概率表达式: Q未知参数(总体值); Q统计值(样本值); 【Q-,Q+】置信区间为Q的可能取值范围); 1-置信度(置信区间包含Q可靠性程度);一般是根据研究者想让自己的研究达到什么样的精确度而自己给定的。 显著性水平(significant),表示用置信区间估计不可靠的概率。第六节 大样本区间估计(一)2 已知时,样本均值呈正态分布整理后得出的区间估计概率公式:所以

    16、,的双侧置信区间为:(二)大样本,总体分布满足x N( , 2 ), 但2 未知时对进行区间估计:Z= (用样本标准差s代替总体标准差) 故总体成数P的区间估计公式为如果P未知,可以用P 取代。(三)常用置信度下的置信区间当1-=0.95时,置信区间为:1-=0.99时,置信区间为:第六章 假设检验的基本概念一、统计假设:依靠抽样数据对总体分布进行验证的假设,包括原假设和备择假设。二、原假设和备择假设 1.原假设H0:又称之为虚无假设,根据已有的资料,或周密考虑后确定的,如果没有充分根据,是不会被轻易否定的。2.备选假设H1:又称研究假设,经过抽样调查,有充分根据否定原假设H0时,产生的假设。

    17、三、假设检验的基本原理大数定理:1.对事件进行大量观察时,事件的发生是有规律的,这种有规律性的数量成为概率。2.在大量观察中,频繁出现的事件具有较大的概率,反之,则具有小的概率。小概率原理: 认为小概率事件在一次观察中是不可能出现的,称为小概率原理。 如果在一次观察中出现了小概率事件,就否定原有事件具有小概率事件的假设。四、 假设检验的思想1.经过抽样调查获得数据后,如果根据样本计算的某个统计量表明在原假设H0成立的条件下几乎是不可能发生的,我们就拒绝原假设,而接受备选假设。2.如果在原假设成立的条件下,根据样本所计算的某个统计量,发生的可能性很大的话,我们就接受原假设。五、相关名词:1.统计

    18、检验中的假定(前提):是进行检验的前提或要求。如计算时,要求时正态分布,样本的抽取应该是随机抽样。2.统计量:用来检验总体的样本的函数f(x1,x2,xn),常用的统计量有服从Z分布、t分布、F分布、X2分布等,他们的统计量分别对应为Z、t、F、 X2 。3.显著性水平(significance) =小概率 小概率的标准,小概率的数量界限。常用的显著性水平有=0.10、0.05或0.01。4.临界值、接受域和拒绝域 根据原假设作出统计量的分布图六、假设检验的两类错误 1.弃真的错误是在拒绝原假设时出现的错误,即将正确的原假设当作假的所犯的错误。弃真错误的大小就是 2.纳伪的错误是接受原假设时出

    19、现的错误,即接受了实际上错误的原假设的错误。称为第二类错误。七、两类错误的关系弃真错误减少导致纳伪错误的增大反之亦然。即,当显著性水平减小时,由于拒绝域的减小,弃真的错误会减小,但由此而来的是接受域增大了,因而纳伪的概率增大,反之亦然。八、解决的方法增加样本容量。九、假设检验的四个步骤: 1.成立原假设 2.成立备择假设 3.统计量 4.拒绝域和接受域第九章 列联表一、什么是列联表(一)相关:是指一个变项的值与另一个变项的值有连带性。即如果一个变项的值发生变化,另一个变项的值也有变化。(1)正相关(正比):是指一个变项的值增加时,另一个变项的值也增加。(2)负相关(反比):是指一个变项的值增加

    20、时,另一个变项的值却减少。(二)自变量、因变量:科学研究中,我们成立假设,一般假定某变项是因,另一变项是果,那么前者称之为自变量,后者称为因变量。(1)不对称关系:自变量影响因变量,因变量不影响自变量(2)对称关系:自变量和因变量互相影响。(三)列联表(交互分类表):按照两个变量进行交互分类的频次分布表,其综合了两个变项的共同分布。即:我们先将数据按自变量x分类,然后分别统计自变量的每一取值下的因变量y的取值,然后形成的统计表。二、列联表要注意的问题1.线条要尽量的少,舍去不必要的线条。2.每个表的顶端要有表号和标题。3. 表的顶端为自变量,表的左旁边为因变量。4.表的大小表的横行数目(row

    21、s,简写为r)表的纵行数目(columns,简写为c)。5.表的下端和表的右边称为边缘分布。6.联合次数分布表和联合频率分布表可以互换。7.联合频率分布表中,一定要注明样本总数。8.应以自变量的方向计算百分比的方向。三、边缘分布1.边缘分布:只研究联合分布中某一变量的分布,而不管另一个变量的取值。2.关于y的边缘分布( N*j ):把联合分布中的概率,次数按行的方向加总起来的分布。3.关于x的边缘分布( Ni* ):把联合分布中的概率,次数按列的方向加总起来的分布。四、条件分布将其中一个变量控制起来取固定值,研究另一变量的分布,即得到第二个变量的条件分布。关于y的条件分布(控制x的取值),最多

    22、有c个。关于x的条件分布(控制y的取值),最多有r个。五、 列联表中变量的相互独立性(自变量与因变量无关时)列联表中变量相互独立性时,则如下等式成立:x1x2N*j y1N11N21y2N12N22Ni* NPij=Pi*P*jX2P*j P11P21P12p22Pi* 六、列联表的检验1.检验的内容:x与y是否有关总体参数: p N (总体概率及总数)样本参数: P n (样本频率及频次)2.列联表检验的原假设H0:Pij = pi* p*j i=1,2,c = j=1,2,r七、列联表检验的统计量1.期望格值Eij是假定H0成立的条件下,每格内期望发生的频次(理论值);2.样本格值nij是

    23、样本实测频次或观察频次。3.原假设成立的情况下,有下面的的等式:Eij八、统计量X 2九、列联强度1.r c 列联表PRE测量法 E1:不知道y与x的关系时,预测y的全部误差E2:知道y与x的关系后,用x去预测y的全部误差E1-E2:知道y与x的关系后预测y所减少的误差v PRE(Proportional reduction in error)称为减少误差比例,表示用x解释y时可以减少的误差的百分比。2. PRE的取值范围:PRE=0 E1=E2 则x与y无关PRE=1 E2=0 x与y完全相关0 PRE 1 x与y部分相关e.g.PRE=0.8,说明用x 预测 y 可以减少80%的误差,x与

    24、y高度相关3.Lamda 系数()4. 系数取值范围: =0 x与y无关 =1 x与y全相关0 1 x与y部分相关,值越大表示x与y相关程度越高。5.T系数讨论1. 非对称性。要求两个定类变项中有一个是自变项(x)另一是因变项(y) 2. 0 1 (=0 无关; =1 完全相关)3.具有PRE意义 第十章 等级相关一、名词1. 同序对:设填问卷的A和B两个人,在变量X和Y(问卷上的两个问题,一为自变量,一为因变量)的等级分别为:(Xi,Yi);(Xj,Yj)如果Xi Xj, Yi Yj,就称A和B是同序对。2. 异序对: Xj, Yind,G0两变量正相关;nd=0,G=1-两变量完全相关;

    25、nsnd,G0-两变量负相关;ns=nd,G=0-两变量不相关。 取值范围:【-1,1】 ;nd=0,G=1; ns=0,G=-1. 具有PRE意义; G系数属于对称相关测量法。 G=PRE=第十一章 回归与相关第一节 回归研究的对象一、 研究两个变量之间的因果关系 回归分析就是研究定距变量x与定距变量y之间的因果关系。 由于我们研究的自变量只有一个,所以称之为一元回归分析。(基础统计学) 如果研究的自变量有多个,那么称之为多元回归分析。(高级统计学) 二、 散布图1.散布图是相关关系的图形表示。2.我们进行n次独立观测,就会得到关于x和y的n个数据对。3.其中xi表示变量x在第i次观测中的测量值,与之对应,yi是变量y在第i次观测中的测量值。4.通常把数据对( xi,yi )(i=1,2,3n)用平面上直角坐标的点来表示,这样在平面直角图上就呈现了n个散布点,又称散布图。5.散布图的特点是,对于一个 确定的xi值, yi值不是唯一的。第二节 回归直线方程的建立任务:确定回归直线中的


    注意事项

    本文(社会统计学复习整理Word文档格式.docx)为本站会员主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2022 冰点文档网站版权所有

    经营许可证编号:鄂ICP备2022015515号-1

    收起
    展开