北大心理统计笔记.docx
- 文档编号:9900588
- 上传时间:2023-02-07
- 格式:DOCX
- 页数:20
- 大小:24.53KB
北大心理统计笔记.docx
《北大心理统计笔记.docx》由会员分享,可在线阅读,更多相关《北大心理统计笔记.docx(20页珍藏版)》请在冰豆网上搜索。
北大心理统计笔记
北大心理统计
第一章绪论
&1.随机现象与统计学
确定现象随机现象
本人性别生男生女
光的速度学习成绩
种豆得豆(人的)反应速度
随机现象:
具有以下三个特性的现象称为随机现象
(i)一次试验有多种可能结果,其所有可能结果是已知的。
(ii)试验之前不能预料哪一种结果会出现
(iii)在相同条件下可以重复试验
随机事件:
随机现象的每一种结果叫做一个随机事件。
随机变量:
把能表示随机现象各种结果的变量称为随机变量
统计学的研究对象是随机现象规律性随机变量的分布:
(i)正态分布eg:
学习成绩
图(略)
(ii)双峰分布eg:
:
汽车拥挤程度
图(略)
(iii)另一种分布eg:
如下
图(略)
&2.总体和样本
总体:
是我们所研究的具有某种共同特性的个体的总和
样本:
是从总体中抽取的作为观察对象的一部分个体。
(i)总体:
有限总体:
总体所包含的个体数目有限时
无限总体:
总体所包含的个体数目无限时→参数:
总体上的各种数字特征
(ii)总体→抽样→样本:
大样本:
>30>50
小样本:
≤30≤50(更精神)
(样本容量:
样本中包含的个体数目)
→统计量:
样本上的数字特征
根据统计量来估计参数
&3.心理统计学的内容
1.描述统计:
对已获得的数据进行整理,概括,显现其分布特征的统计方法。
集中量平均数#
描述差异量标准差S:
S大:
差异大/不稳定对个别
S小:
差异小/稳定对个别
统计相关量:
相关系数(表示两件事情的相互关系)r.r∈[-1,1](r表示从无关道完全相关,相关:
正相关,相关,负相关)
2.推断统计
参数估计:
#→μ
s→σ
推断r→р
统计假设检验:
参数检验
非参数检验
3.实验设计
↓
初级的,用平均数,百分比
↓
后来,平均数→T检验(2个对象)
标准差
↓
中级的,(2个或2个以上对象)(方差分析)下检验。
↓
高级的,相关回归(用相关系数)
↓
再高级的,(研究生学)因素分析(探索性的)两两相关,写相关系数
↓
更高级的,协方差结构方程(验证性的)
前程:
相同符号的一串→非参数检验中的一种
第二章数据整理
&1.数据种类
一.间断变量与连续变量eg:
人数~间断
二.四种量表。
1.称名量表。
Eg:
307室,学好,电话好吗不能进行数学运算(也包括不能大小比较)
2.顺序量表。
Eg:
名次。
能力大小,不能运算
3.等距量表。
可以运算(做加减法),不能乘除
要求:
没有绝对0
年龄有绝对0
时间(年代,日历。
。
。
)位移无绝对0,可能有相对0,即有正负
4.等比量表。
可做乘除法。
要有绝对零。
成绩中的,0分不是绝对0(因为并不说明此人一窍不通)
分数代表的意义。
Eg:
0~10分
与90~100分。
每一分的"距离"不一样
因为严格来说,成绩是顺序量表。
但为了实际运用中的各种统计,把它作为等距量表
&2.次数分布表
一.简单次数分布表
eg:
组别次数(人次)
1002
90~995
80~8914
70~7915
60~697
60分以下3
1.求全距R=Max-Min(连续变量)
(间断变量)--R=Max-Min+1
2.定组数K(组数)=1.87(N-1)。
。
。
→取整N-总数
3.定组距I=R/K。
一般,取奇数或5的倍数(此种更多)。
4.定各组限
5.求组值X=(上限+下限)/2上限--指最高值加或取10的倍数等)
6.归类划记
7.登记次数
例题:
9996929090(I)R=99-57+1=43
8786848383
8282807978(II)K=1.87(50-1)。
。
。
≈9
7878787777
7776767676
7575747473(III)I=R/K=43/9≈5
7272727171
7170706969
6867676765(iu)组别组值次数
646262615795~99972
90~94923
85~89872
80~84826
75~797714
70~747211
65~69677
60~64624
55~59571
总和50
二.相对(比值)次数分布表。
累积次数分布表
相对(比值)累积次数:
累积次数值/总数N
注:
一般避免不等距组("以上""以下"称为开口组)
相对次数累积次数(此处意为"每组上限以下的人次)"小于制"
.0450
.0648
.0445
.1243
.2837
.2223
.1412
.085
.021
1.00
&3.次数分布图
一.直方图
1.标出横轴,纵轴(5:
3)标刻度
2.直方图的宽度(一个或半个组距)
3.编号,题目
4.必要时,顶端标数)
图
二.次数多边图
1.画点,组距正中
2.连接各点
3.向下延伸到左右各自一个组距的中央
最大值即y轴最大值
相对次数分布图,只需将纵坐标改为比率。
(累积次数,累积百分比也同样改纵坐标即可)"S形"曲线是正态分布图的累积次数分布图
图
三章常用统计量数
&1.集中量
一.算术平均数
公式
算术平均数的优缺点。
P36~37
算术平均数的特征。
Σ(X-#)=0离(均数)差
Σ(X-#)(X-#)取#时,得最小值
即:
离差平方和是一最小值
二.几何平均数
#g=略
long#g=1/NσlogXi
根据按一定比例变化时,多用几何平均数
eg:
91年9293949596
12%10%11%9%9%8%
求平均增长率
xg=
加权平均数
甲:
600人#=70分
乙:
100人#=80分
加权平均数:
#=(70*600+80*100)/(600+100)(总平均数)eg:
600人,100人
简单平均数:
(70+80)/2
三.中(位)数。
(Md)
1.原始数据计算法
分:
奇、偶。
2.频数分布表计算法(不要求)
3.优点,缺点,适用情况(p42)
四.众数(Mo)
1.理论众数
粗略众数
2.计算方法:
Mo=3Md-2#
Mo=Lmo+fa/(fa+fb)*I
计算不要求
3.优缺点
平均数,中位数,众数三者关系。
&2.差异量数
一.全距
R=Max-Min
二.平均差(MD或AD)
MD={Σ|x-#(或Md)|}/N
三.方差
总体方差的估计值
S2=Σ(X-#)2反编
样本的方差:
σ2x有编
N很小时,用S2估计总体
N>30时,用S2或σ2x都可以
计算方法:
σ2x=Σx2/N-(ΣX/N)2
标准差σx=σ2x2/1
四.差异系数(CV)
CV=σx/#*100%CV∈[5%,35%]
3个用途
五.偏态量与锋态量(SK)
1.偏态量:
sk=(#-Mo)/σx
动差(一级~四级)a3=Σ(x-#)3、/N/σx3三级动差计算偏态系数)
2.峰态量:
高狭峰a4>0(a4=0--正态峰)
低调峰。
A4<0
用四级动差a4=Σ(X-#)4/N/σx4-3
&3.地位量数
一.百分位数
eg:
P30=60(分)"60分以下的还有30%的人"
二.百分等级
30→60(在30%的人的位置上,相应分数为60)
So→Md
第四章概率与分布
&1.概率
一.概率的定义
W(A)=m/n(频率/相对频数)
后验概率:
P(A)=limm/n
先验概率:
不用做试验的
二.概率的性质和运算
1.性质:
o≤P≤1
p=1必然可能事件
p=0不可能事件
2.加法。
P(a+b)=P(a)+P(b)
"或":
两互不相克事件和。
推广:
"有限个"P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)
eg:
(1)A=出现点数不超过4(x≤4)
P(A)=P(x=1)+P(x=2)+P(x=3)+P(x=4)=1/6+…1/6=4/6=2/3
(2)完全凭猜测做判断题,(共2道),做对1题的概率为:
A={T.TiB={F.TiC={T.FiD={F.Fi
P=P(B)+P(C)=1/4+1/4=0.5
3.乘法:
P(A1,A2…An)=P(A1),P(A2)…P(An)
Eg:
(1)四选1。
(十道)完全凭猜测得满分得概率:
(1/4)*(1/4)…*(1/4)=1/410
&2.二项分布
一.二项分布
P(x)=Cnxpxgn-x做对的概率px:
做错的概率gn-x:
X:
对的数量pxgn-x--每一种分情况的概率。
一种情况:
pxgn-x再乘上系数。
Eg:
产品合格率为90%取n=3(个)
TTT的情况90*90*90=P30.729
TFT90*0.10*90=P2g10.081
两个合格的情况→TTF
FTT
其概率C32P2g1=3p2g1.
Cn0P0gn+CnP1gn-1+…+CnPng0=1
注:
二项分布可能的结果只有两种。
F0rT
合格Or不合格
选对Or选错
例:
(1)10道是非题,凭猜测答对5,6,7,8,9,10题的概率?
至少答对5题的概率?
P(x=5)=C510P5g5=C510(1/2)51/2)5=.24609
P(x=6)=C610P6g4=C610(1/2)6(1/2)4=.20508
P(x=7)=C710P7g3=C710(1/2)7(1/2)3=.11719
=.04395
=.00977
+P(x=10)=C1010P10g0=(1/2)10=.000098
至少答对5题:
P(X≥5)=0.62306
(2)四选一,猜中8,9,10题的概率?
P(x=8)=C819P8g2=C819(1/4)8(3/4)2=.0039
二.二项分布图(P84~85)
三.二项分布的平均数与标准差(前提np≥5且ng≥5)
平均数--M=np标准差--r=npg1/2
&3.正态分布
一.正态分布曲线
二.标准正态分布。
(P387附表可查面积P)
Z=(x-ц)/r(x:
原始分数)
标准分数(有正有负)ΣZ=0
三.正态分布表的使用
查表P(0≤Z≤1)=0.34134--Z的范围中的人数比例(百分数)
P(0≤Z≤1.645)=0.4500
1.64-.44950=0.45
1.65-.45053=0.45
之上,标准分数高于2个标准差,则非常聪明。
Eg:
1.μ=70(分)σ=10
P(70≤x≤80)=p(o≤z≤1)
P(60≤x≤70)=P(-1≤z≤0)
2.μ
P(0≤z≤1)=P(μ≤x≤μ+σ)
P(-1≤z≤0)=P(μ-σ≤x≤μ)
图(略)
例:
某地区高考,物理成绩μ=57。
08(分)σ=18。
04(分)
总共47000人。
(1)成绩在90分以上多少人?
(2)成绩在(80,90)多少人?
(3)成绩在60分以下多少人?
解:
X~N(57.08,18.042)--参数(μ,σ2)
Normal表示符合正态分布
令Z=(x-57.08)/18.04),则Z~N(0,12)标准分数平均数一定为0,标准差一定为1。
(1)Z1=(90-57。
08)/18.04=1.82
P(Z>1.82)=.0344
N1=np=47000*0.0344=1616(人)
(2)Zz=(80-57.08)/18.04=1.27
P(1.27 N2=NP=3177(人) (3)Z3=(60-57.08)/18.04=0.16 P(Z<0.16)=.56356 N3=26487(人) 四.正态分布的应用 T=KZ+CT~N(C,K2) IQ=15Z+100IQ=100一般 IQ≥130--超常 (30=2x*15) IQ<70--弱智 70几--bndenline eg: 1.某市参加一考试2800人,录取150人,平均分数75分,标准差为8。 问录取分数定为多少分? 解: X~N(75.82) Z=(x-#)/σx=(x-15)/8~N(0,12) P=150/2800=0.053 0.5-0.053=0.447 Z=1.615 X=1.615*8+75≈88(分) 2.某高考,平均500分,标准差100分,一考生650分,设当年录取10%,问该生是否到录取分? 解: Zo=(650-500)/100=1.5(X~N(500,1002)(Z~N(0,12) Po=0.5-0.43319=0.06681=6.681%<10% 所以可录取。 第五章抽样分布(概率P) &1.抽样方法 一.简单随机抽样 二.等距抽样 三.分层抽样 四.整群抽样 五.有意抽样 &2.抽样分布 (1) (2)(3)(4)(5) 2025303540 (1)#=2022.52527.530 (2)22.52527.53032.5 (3)2527.53032.535 (4)27.53032.53537.5 (5)3032.53537.540 总体分布 图 抽样分布 图 一.平均数 E(#)=μ 二。 标准差,方差。 σx=σ/n1/2σ#2=σ2/n &3.样本均值(#)的抽样分布 一.总体方差σ2已知时,#的抽样分布 1.正态总体,σ2已知时,#的抽样分布 设(X1,X2,…Xn)为抽自正态总体X~N(μ,σ2) 的一个简单随机样本,则其样本均值#也是一个正态分布的随机变量,且有: E(#)=μ,σx2=σ2/n 即#~N(μ,σ2/n) Z=(#-μ)σ/n1/2 Eg: 一次测验,μ=100σ=5 从该总体中抽样一个容量为25的简单随机样本,求这一样本均值间于99到101的概率? 解: 已知X~N(100,52) n=25. 则#~N(100,12) Z=(#-100)/1~N(0,1) 当#=99时,Z=-1 当#=101时,Z=1 所以P(99≤#≤101) =P(-1≤Z≤1)=.68268 2.非正态总体,σ2已知时,#的抽样分布 设(X1,X2,…Xn)是抽自非正态总体的一个简单1随机样本。 当n≥30时,其样本均值#接近正态分布,且有: E(#)=μ,σx2=σ2/n 即#~N(μ,σ2/n) 若是小样本,题目无解。 Eg (1)一种灯具,平均寿命5000小时,标准差为400小时(无限总体)从产品中抽取100盏灯,问它们的平均寿命不低于4900小时的概率。 解: 已知: μ=5000,σ=400,n=100>30是大样本 所以#近似正态分布 #~N(5000,402) 当#=4900时,Z=(4900-5000)/400/1001/2=-2.5 P(#≥4900)=P(Z≥-2.5)=0.99379 3.有限总体的修正系数 (引出) (2)同上题,从2000(有限总体)盏中不放回地抽取100盏,问。 。 。 。 。 (概念)设总体是有限的总体,其均值为μ,方差为σ2(X1,X2…Xn)是以不放回形式从该总体抽取的一个简单随机样本。 则样本均值#的数学期望(E(#))与方差为 E(#)=μ#=μ和σ2=(N-n)/(N-1)*(σ2/n) N→∞时,修正系数不计。 σ=[(N-n)/(N-1)*(σ2/n)]1/2 .n/N≥0.05%,要用修正系数 如题 (2),n/N=0.05所以要用修正系数 所以解题2: σx2=(N-n)/(N-1)*(σ2/n)=2000-100)/2000-1=4002/100=1520 σ#=15201/2=38.987 Z=(4900-5000)/38.987=-2.565 P(Z≥-2.565)=.9949 二.总体方差σ2未知时,样本均值#的抽样分布。 用S2(总体方差的估计值)代替σ2 t=(x-μ)/s/n1/2~tn-1→dp(自由度)=n-1 设(X1,X2,…Xn) 为抽自正态总体的一个容量为n的简单随机样本,即t=(x-μ)/s/n1/2符合自由度为n-1的t分布 当总体为非正态分布,且σ2未知。 则样本小: 无解 大: 接近七分布t≈t=(x-μ)/s/n1/2~tn-1 Z≈t=(x-μ)/s/n1/2~N(0,1)(也可用Z) 总体均值为80,非正态分布,方差未知,从该总体中抽一容量为64的样本,得S=2,问样本均值大于80.5得概率是多少? 解: 因为64>30是大样本 P(#>80.5)=P(t>(x-μ)/s/n1/2)=P(t>2)df=63P≈0.025 若用Z,P(Z>z)≈0.02275 (若N24,总体正态,则Z分布1不能用,只能用七分布) 非正态总体: 小样本--无解 大样本--Z≈(x-μ)/σ/n1/2 σ2已知 正态总体Z=≈(x-μ)/σ/n1/2 非正态总体: 小样本--无解 σ2未知: 大样本--t≈(x-μ)/σ/n1/2≈Z 正态总体: 小样本--t=(x-μ)/σ/n1/2 大样本--Z≈t=(x-μ)/σ/n1/2 &3.两个样本均值之差(#1-#2)的抽样分布 若#1是独立地抽自总体X1~N(μ1,σ2)的一个容量为n,的简单随机样本的均值;#是。 。 。 X2~N(μ2,σ22)的。 。 。 n2.的。 。 。 则两样本均值之差(#1-#2)~N(μ1-μ2,σ12/n1,σ22/n2) 复杂计算 一种钢丝的拉强度,服从正态分布 总体均值为80,总体标准差6,抽取容量为36的简单随机样本,求样本均值∈[79,81]的概率 X~N(80,62) Z~N(0,12) Z=(x-μ)/6/361/2=(x-8)/1 x∈[79,8081] Z∈[-1,1] P=.68268 若σ不知。 S=b,则X~(80,σ2) 用公式t=(#-μ)/s/n1/2~tn-1=t35 某种零件平均长度0.50cm,标准差0.04cm,从该总零件中随机抽16个,问此16个零件的平均长度小于0.49cm的概率 无解。 抽100个,则概率? Z≈(x-μ)/σ/n1/2=(#-0.50)/0.004 #<0.49P(Z<-0.01/0.004) =P(Z<-2.5)=.49379= 从500件产品中不放回地抽25件。 25/500=0.05要修正系数(N-n)/(N-1)≈.95 某校一教师采用一种他认为有效的方法,一年后,从该师班中随机抽取9名学生的成绩,平均分84.5分,S=3。 而全年级总平均分为82分,试问这9名学生的#<84.5分的概率为多大? #~N(82,σ2)t~t8 t=(#-μ)/s/n1/2=84.5-82)/3/3=2.5 df=8 0.975≤P(t<2.5) 说明方法有效 (S=3是σ的估计值,两组数据都很整齐。 图(略) &4.有关样本方差的抽样分布 一.f2分布 1.f2分布的密度函数f(x)=1/2n/2*r*n/2)*e-x/2*xn/2-1(x>0) f(x)=0(x≤0) 图(略) 2.定理: 设(X1,X2,X3…Xn)为抽自正态总体X~N(μ,σ2)的一个容量为n的简单随机样本,则#=∑(X-#)2/n-1为相互独立的随机变量,且#~N(μ,σ2/n) ∑(X-#)2/σ2=(n-1)S2/σ2~X2n-1(I=1,2,…n) 若抽自非正态总体: 小样本--无解 大样本--X2≈((n-1)S2/σ2 二.F分布 1.F分布的密度函数 f(x)=[(n1+n2)/2]/(n1/2)(n2/2)(n1/n2)(n1/n2*X)n1/2-1(1+n1/n2*X)-n1+n2/2(x≥0) f(x)=0(x<0) 2.定理 设(X1,X2,…Xn)为抽自X~N(μ1,σ21)的一个容量为n1的简单~(y1,y2…yn)为抽自正态总体y~N(μ2,σ22)的一个容量n2的简单~,则: 当σ21=σ22时, F=S21/S22~F(n1-1,n2-1)n1~分子自由度n2~分母自由度 第六章参数估计(置信水平下的区间估计) &1.点估计 E(X)(即#)=∑x/N→μ (拿一个点来估计参数) D(X)=∑(x-#)2/N-1→σ2 &2.总体均值的区间估计 一.总体均值的区间估计,σ2已知。 正态总体x~N(μ,σ2) #~N((μ,r2/n)Z=(#-μ)/σ/n1/2 1.某种零件的长度符合正态分布。 σ=1.5,从总体中抽200个作为样本,#=8.8cm,试估计在95%的置信水平下,全部零件平均长的置信区间。 解: 已知X~N(μ,1.52) n=200,#=8.8 1-a=0.95→a-0.05 Z0.025=1.96 P(#-Za/2σ/n1/2<μ<#+Za/2n1/2 =P(8.59<μ<9.01)=0.95 10%>5% 若不放回地从2000个(总体)中抽出200个。 --需修正系数 所以用(N-n)/(n-1)1/2P(#+-1.96*σ/n1/2*(N-n)/(n-1)1/2=0.95=P(8.60,9.00) 二σ2未知 P(#-t(a/2,n01)S/n1/2<μ<#+t(a/2,n-1)S/n1/2)=1-a 为了制定高中学生体锻标准,在某区随机抽36名男生测100米,36名学生平均成绩13.5秒,S=1.1秒,试估计在95%地置信水平下,高中男生100米跑成绩的置信区间。 P(#+-2.03*S/n1/2)=P(13.5+-2.03*1.1/361/2)=9.5 (13.5+-0.37) 即(13.13,13.87) 得(13.14,13.86)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北大 心理 统计 笔记
![提示](https://static.bdocx.com/images/bang_tan.gif)