统计学第四章.docx
- 文档编号:23784228
- 上传时间:2023-05-20
- 格式:DOCX
- 页数:15
- 大小:112.96KB
统计学第四章.docx
《统计学第四章.docx》由会员分享,可在线阅读,更多相关《统计学第四章.docx(15页珍藏版)》请在冰豆网上搜索。
统计学第四章
第四章差异量
教学目的:
1理解全距、四分位距、百分位距、平均差、方差、标准差和差异系数等概念;
2掌握各种差异量指标的计算方法。
数据的分布特征不仅有集中趋势,还有离中趋势。
以动态的眼光,从不同的角度看,数
据是向中间变动的,也是向两端变动的。
两组数据可能平均水平相同,但两组数据的分布特征并不完全相同。
【如】:
比较下列两组数据
A组:
88、82、73、76、81
B组:
92、86、70、72、80
两组平均数XAXB80,但Ra=88—73=15,Rb=92-70=22。
即A组较集中,B组较分散。
因此,我们描述一组数据的分布特征,既要描述其集中趋势,也要描述其离中趋势。
差异量:
表示一组数据的离中趋势或变异程度的量称为差异量。
常用的差异量指标有全距、四分位距、百分位距、平均差、方差、标准差和差异系数。
第一节全距、四分位距、百分位距
一、全距
全距:
是一组数距中最大值与最小值之差。
优点:
意义明确,计算方便。
缺点:
反应不灵敏,易受极端值影响。
、四分位距
(1)四分位距的的概念
四分位距:
是指一组按大小顺序排列的数据中间部位50%个频数距离的一半。
Q3Q./、
QD31(4.1)
2
QD:
表示四分位距;
Qa:
表示第三四分位数;
Qi:
表示第一四分位数。
所以:
四分位距的公式又为:
(二)四分位数的计算方法
1、原始数据计算法
(1)将数据由小到大进行排列;
(2)分别求出三位四分位数(点)
(3)代入公式计算。
【例如】:
有以下16个数据25、22、29、12、40、15、14、39、37、31、33、19、17、
20、35、30,其中四分位距的计算方法如下:
(1)先将原始数据从小到大排列好;
12、14、15、17、*19、20、22、25、*29、30、31、33、*35、37、39、40Q1=18Md=27Q3=34
(2)求出Q1、Md、Q3;
(3)将Q1、Md、Q3的得数代入公式(4.1)。
2、频数分布表计算法
利用频数分布表计算公式为:
QD巴电(4.2)
2
关键是分别计算P75和P25,百分位数计算方法掌握了,这里的计算就不会有什么问题。
(三)优缺点
优点:
意义明确,不受极端值影响。
缺点:
反应不灵敏。
三、百分位距
百分位距:
是指两个百分位数之差。
常用的百分位距有两种:
P90—Pl0和P93—P7
优点:
意义明确,不受极值影响。
缺点:
反映不灵敏。
第二节平均差
、平均差的概念
MD表示)。
、平均差的计算方法
1、原始数据计算法
公式为:
2、频数分布表计算法
公式为:
Xc:
为各组组中值
【例】:
求表4.1中30数据的平均差。
三、平均差的优缺点
优点:
意义明确,反应灵敏。
缺点:
不适合代数运算。
第三节方差和标准差
、方差和标准差的概念
(4.5)
(4.6)
定义公式为:
—2
(XX)
N
X:
为离差;
—2
(XX):
为离差平方和。
2、方差的方根即标准差
2
(XX)
N
7278808679
(2)
求方差
(7279)2(7879)2(8079)2(8679)2
4
(3)
求标准差
※:
标准差的值越大,
说明数据越分散。
二、方差和标准差的计算方法
1.原始数据计算法
—2
(XX)
N
X22NXX
X22XX
—2
NX
N
22
X2NX
NX).
X2
X丄)
N
所以得:
X2
N
X2
N
(4.7)
【例】:
计算
80、
(N
X)2
(4.8)
78、
84、
80、72的方差和标准差。
解:
X2
N
22
(8078
(f)
842802
型[(8078848072)5]2
(4.9)
(4.10)
15.36
15.363.9
2.频数分布表计算法
公式为:
XfXc2
-(-)2
NN
fX:
fXc2
—C(——c)
NN
Xc:
为组中值;
f:
为组频数;
fxc2:
为f个数据的平方和;fXc:
为f个数据的和。
例题:
参看教材48。
三、方差和标准差的优缺点:
优点:
严密确定,反映灵敏,适合代数运算。
缺点:
不太容易理解,易受两极端值影响。
第四节相对差异量
一、相对差异量的概念
平均差、方差、标准差等都带有单位,是绝对差异量。
常常不能对不同组的数据差异直
接比较。
差异系数:
也叫相对差异量,是指同一组数据的标准差与算术平均数的百分比(用CV
表示)。
公式为:
(4.11)
x
CV-=100%
X
cv值越大,表明数据离散程度越大。
、差异系数的用途
1.比较不同单位资料的差异程度。
【例题】:
某班学生的平均身高为152cm,标准差为5.1cm;平均体重为47公斤,标准差
为3.2公斤,问该班学生身高变异大还是体重变异大?
解:
身高:
CV
x
X
100%
5.1
152
100%
3.36%
体重:
CV
x
100%
3.2
100%
6.8%
X
47
得:
该班学生体重变异大。
2.比较单位相同平均数差异较大的两组资料的差程度。
【如】:
某班语文测验平均分为86.5分,标准差为5.5分;英语平均分为71分,标准
差为5分,则:
5.5
语文:
CV
86.5
100%
6.36%
英语:
CV
5
100%
7.04%
71
所以,英语成绩的变异大。
3.可判断特殊情况:
一般CV值在5%^35沱间。
当CV35时,X可能失去意义;即对各个数据的代表性差当CV5时,X或x的计算可能有误。
第五节偏态量和峰态量
偏态量和峰态量:
是判断频数分布是否为正态分布的统计量,是一种粗略指标。
2
正态性检验常用检验。
、偏态量
偏态量有两种计算方法
1.
皮尔逊指数法
【例】:
某校200名学生的英语平均分为80分,中位数为82分,标差为8分,其偏态
度为:
解:
SK0.750,
该校学生的英语分数的分布为负偏态
2.根据动差来计算
3
(XX)
N
33
x
f(XcX)3
N
33
x
当3=0时,分布对称;当
3时,N应大于200.
例题:
参看教材57页。
(4.14)
(4.15)
3>0时,分布是正偏态;当
3<0时,分布是负偏态。
计算
动差:
是指力与力距的乘积(力学中的概念)
、峰态量
峰态量:
是用于说明分布曲线高狭和低阔程度的量。
1.用两个百分位距来计算
(4.16)
P75P25
2(P90P10)
当Ku=0.263时,分布是正态峰;当Ku<0.263时,分布为高狭峰;当Ku>0.263时,分
布低阔。
表4.1小学二年级80个学生身高的四分位距计算表
身高
频数
累计频数
计算四分位距
115—
1
1
118—
3
2
4
121—
8
n1
12
Q=126.40
124—
10
2
22
127—
20
=2
42
Q=132.84
130—
19
61
QD=3.22
133—
12
73
136—
4
77
139—
2
79
142—
1
80
总和
80
【例题】:
根据表4.1数据将计算出的P75=132.84,P25=126.40,P9o=135.75,Pio=122.5
代入公式(4.17),则峰态量为:
132.84
126.40
Ku
0.243
2(135.70
122.50)
由于K
u0.243
0.263,则分布为高狭峰
2、根据动差来计算
计算a4时,N应大于1000,峰态系数方比较可靠。
表4.4以平均数为原点四种动差的计算表
X
XX
—2
(XX)
—3
(XX)
(XX)4
56
-15.5
240.25
-3723.88
57720.14
58
-13.50
182.25
-2460.38
33215.13
61
-10.50
110.25
-1157.63
12155.12
63
-8.50
72.25
-614.13
5220.11
70
-1.50
2.25
-3.38
5.07
74
20.5
6.25
15.63
39.08
79
7.50
56.25
421.88
3164.10
84
12.50
156.20
1953.13
24414.13
84
12.50
156.25
1953.13
24414.13
86
14.50
210.25
3048.63
44205.14
0
1192.50
-567.00
204522.15
【例题】:
表4.4,10个数据的标准差为
10.92,将数据代入公式(4.17),则峰态系数为:
204552.15/10
4
由于
4—31.56
10.92
40,表明10个数据的分布呈低阔峰。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 第四