03数值资料的统计描述.docx
- 文档编号:27083117
- 上传时间:2023-06-26
- 格式:DOCX
- 页数:18
- 大小:34.69KB
03数值资料的统计描述.docx
《03数值资料的统计描述.docx》由会员分享,可在线阅读,更多相关《03数值资料的统计描述.docx(18页珍藏版)》请在冰豆网上搜索。
03数值资料的统计描述
第三章数值资料的统计描述
考察数值变量(定量指标)所获得的资料称数值资料。
采用计算统计指标、绘制统计图和编制统计表来描述数值资料的统计特征称数值资料的统计描述。
它是资料统计分析的主要步骤,是进一步开展统计推断的依据。
BASESAS模块提供了对资料统计描述的多个过程语句,其中MEANS过程和UNIVARIATE过程可满足数值变量的全部各类统计指标的计算。
3.1数值资料常用统计指标
1.位置度量
(1)均数(Mean):
是描述数值资料频数分布中心的一种度量,它是一组n个观察值累加和的平均。
(2)中位数(Median):
是一组数据按其大小有序排列后,居于中间的数值。
(3)众数(Mode):
是观察值中出现频率最高的数值。
(4)几何均数(Geometricmean):
是n个数值的乘积开n次方根。
(5)分位数(Quartiles):
包括百分位数、四分位数和中位数。
第X百分位数记为Px,表示在一组按大小顺序排列的数据中,有x%的观察值小于Px,有(100-x)%的观察值大于Px。
P50、P25、P75分别称为中位数、下四分位数、上四分位数。
2.变异性度量
(1)全距(Range):
为一组观察值中最大值与最小值之差。
(2)四分位间距(Interquartilerange):
为上、下四分位数之差。
(3)方差(Variance):
是离均差平方和除以自由度的商。
(4)标准差(Standardvariance):
方差的平方根。
(5)变异系数(Coefficientofvariation):
是以百分比表示的标准差和均数的比率。
3.分布形状度量
偏度(Skewness):
用于度量分布是否对称。
样本偏度为
。
其中n为样本含量,
为样本均数,s为样本标准差。
对称分布的偏度值为0,正偏态分布的偏度值大于0,负偏态分布的偏度值小于0。
峰度(Kortosis):
用于度量分布的长尾所占比重。
样本峰度为
。
偏离正态分布较远的分布可能具有较大的正的或负的峰度值。
正态分布的峰度值为0。
3.2MEANS过程
MEANS过程用来对数据集中的数值变量计算简单的描述性统计量。
该过程对数据集中有VAR语句指定的一些数值变量的全部非缺失的观测计算简单的描述统计量。
如果使用BY语句,可把数据按BY变量分为几个观测组,并对每个观测组计算数值变量的描述统计量。
在BY组内还可以用CLASS语句进一步分组。
另外MEANS过程可以将若干统计量的计算结果输出到指定的SAS数据集,供进一步分析计算时调用。
最后,MEANS过程还可计算总体均数的可信区间及H0:
μ=0的t检验。
3.2.1MEANS过程的语句说明
1.MEANS过程语句组成
*PROCMEANS选择项(options)
VAR变量名表
BY变量名表
CLASS变量名表
FREQ变量名表
OUTPUTOUT=SAS数据集统计量关键词=变量名表
其中*标出的是不可缺少的语句,其他语句为可选语句(下同)。
2.MEANS过程的语句说明
(1)PROCMEANS语句
格式:
PROCMEANSoptions;
常用的options(选择项)有:
1DATA=SASDATASETS:
指明目标数据集名。
缺省为最近建立的SAS数据集。
2NOPRINT:
说明不打印任何描述性统计量。
多用在将这些描述性统计量输出到SAS数据集时。
3MAXDEC=n:
规定输出结果的小数部分的最大位数(n取值为0~8)。
缺省n=2。
4FW=field-width(域宽):
给出用来打印每个统计量的域宽。
缺省值为12。
5VARdef=Df|weight/WGT|N|WDF:
在方差计算中规定除数。
Df表示除数使用自由度(n-1),为缺省值。
Weight/WGT表示用权数和作为除数。
n表示用观测个体数(样本含量)做除数。
WDF表示用权数和减1做除数。
6ALPHA=value:
设置计算置信区间的置信水平α。
α值在0~1间。
例如若规定ALPHA=0.05,则计算均值的95%置信区间。
7统计量关键词:
缺省时,该过程将计算n、mean、std、min、max等5个统计量。
统计量的选择项有:
n,nmiss,mean,std,min,max,range,sum,var,uss,css,cv,stderr,t,prt,sumwgt,skewness,krutosis,clm,lclm,uclm。
(2)VAR语句
格式:
VAR变量名表;
规定要求计算简单描述性统计量的数值变量及次序。
若省略该语句,数据集中除去BY、CLASS、ID、FREQ和WEIGHT语句中列出的变量外,所有数值变量依次都被分别计算。
(3)BY语句
格式:
BY变量名表;
使用BY语句后,MEANS过程先按BY变量的取值形成多个观测组,然后按组别分别计算各组对应的描述性统计量,并可由每个观测组产生输出数据集中的一个观测。
注意在使用BY语句前,要求对BY变量已排过序。
(4)CLASS语句
格式:
CLASS变量名表;
同BY语句类似,用CLASS变量定义观测组,分别计算各观测组的描述性统计量。
与BY不同的是CLASS语句不要求CLASS变量事前已排序,而且结果在输出时,按CLASS变量的不同取值,以单表的形式输出。
(5)FREQ语句
格式:
FREQ变量;
该语句指定一个数值型的FREQ变量,它的值表示输入数据集中相应观测出现的频数,该变量的值应为正整数。
若FREQ<1或缺失,相应的观测不参加计算统计量;若这个值不是正整数则取整数部分。
FREQ语句仅当输入数据集系频数表资料时才使用。
(6)WEIGHT语句
格式:
WEIGHT变量名;
该语句规定一个WEIGHT变量,它的值表示相应观测的权数,该变量的值应大于0,若该值小于0或缺失,则假定该值为0。
WEIGHT语句仅当计算加权统计量时才使用。
(7)OUTPUT语句
格式:
OUTPUTOUT=SAS数据集统计量关键词=变量名表……;
该语句要求MEANS过程将指定的统计量,以指定的名称输出到新的SAS数据集中。
1Out=SAS数据集命名输出数据集名。
可用两级数据集名建立永久SAS数据集。
2统计量关键词=变量名表……规定在新数据集中所包含的统计量,并规定存放这些统计量的变量名。
规定统计量并命名的形式有:
关键词=变量名1变量名2……
关键词(变量1变量2……)=名1名2……
3.2.2应用实例
例3.1对已建立的三个班级(CLASS),不同性别(SEX)的年龄(AGE)、体重(WEIGHT)和身高(HEIGHT)的SAS数据集\SAS\TEXT\CHILD.SSD,按不同班级、不同性别计算身高、体重的均数、标准差及标准误,存入名为NEW的SAS数据集中,并打印该数据集的内容。
程序为:
LIBNAMEJI‘\SAS\TEXT’;
PROCSORTDATA=JI.CHILD;BYCLASS;
PROCMEANSDATA=JI.CHILDMAXDEC=3FW=10;
VARHEIGHTWEIGHT;
BYCLASS;
CLASSSEX;
OUTPUTOUT=NEWMEAN=HMEANWMEANSTD=HSDWSDSTDERR=HSEWSE;
RUN;
PROCPRINTDATA=NEW;
TITLE‘NEWDATASET’;
RUN;
注意与MEANS过程具有类似功能的有SUMMARY过程。
3.3UNIVARIATE过程
UNIVARIATE过程除能完成与MEANS过程类似的基本统计量的计算外,还具有如下功能:
1描述单变量极端值的情况。
2计算分位数。
如中位数,上四分位数及下四分位数等。
3生成若干个描述变量分布的图。
如茎叶图、盒式图、正态概率图等。
4生成频数表。
5对资料进行正态性检验。
6对总体均数是否为零进行假设检验。
可以作t检验、中位数检验及符号秩和检验。
3.3.1UNIVARIATE过程的语句说明
1.UNIVARIATE过程语句组成
*PROCUNIVARIATE选择项(options)
VAR变量名表
BY变量名表
FREQ变量名表
ID变量名表
OUTPUTOUT=SAS数据集统计量关键词=变量名表
2.UNIVARIATE过程的语句说明
(1)PROCUNIVARIATE语句
格式:
PROCUNIVARIATEoptions;
常用的options有:
1DATA=SAS数据集同MEANS过程。
2NOPRINT同MEANS过程。
3VARdef=DF|Weight|WGT|N|WDF同MEANS过程。
4FREQ:
要求生成包括变量值、频数、频率和累积频率的频数表。
5NORMAL:
要求计算输入的变量是否服从正态分布的假设检验的统计量,并打印是比检验统计量更极端的概率。
6PLOT:
要求生成一个茎叶图(或水平直方图)、盒式图和正态概率图。
7PCTLDEF=Value:
规定计算百分位数的方法。
取值为1,2,3,4和5。
缺省值为5。
(2)OUTPUT语句
格式:
OUTPUTOUT=SAS数据集统计量关键词=变量名表……;
1在一个UNIVARIATE过程中可使用多个OUTPUT语句,每一个OUTPUT语句创建一个输出数据集。
这里的统计量关键词除在MEANS过程中已介绍的21种外,还有:
Q3:
上四分位数或75%分位数MSIGN:
符号统计量
Q1:
下四分位数或75%分位数PROBM:
大于符号统计量的绝对值的概率
QRANGE:
四分位数间距,即Q3-Q1SIGNRANK:
符号秩统计量
P1:
1%分位数PROBS:
大于符号秩统计量的概率
P5:
5%分位数NORMAL:
正态性检验统计量
P10:
10%分位数PROBN:
数据来自正态分布的概率值
P90:
90%分位数
P95:
95%分位数
P99:
99%分位数
2若要计算任意的百分位数,可在OUTPUT中使用下列选择项。
PCTLPTS=百分位数指明要计算的百分位数。
PCTLNAME=输出变量名的后缀一般用来注明所要计算的是哪个百分位数。
PCTLPRE=输出变量名的前缀一般用来注明是计算哪个变量的百分位数。
以上三项需一起结合使用。
例如:
PROCUNIVARIATE;
VARtestatestbtestc;
OUTPUTPCTLPTS=33.366.7PCTLPRE=abcPCTLNAME=p33_3p66_7;
RUN;
程序执行后将对VAR语句中所列的三个变量testa,testb,testc分别计算33.3%和66.7%的百分位数值。
变量名依次为ap33_3,ap66_7(testa的33.3%和66.7%分位数)、bp33_3,bp66_7(testb的33.3%和66.7%分位数)、cp33_3,cp66_7(testa的33.3%和66.7%分位数)。
(3)打印输出的有关统计量介绍
1T:
Mean=0,及Prob>|T|
检验假设H0:
总体均数为零
检验方法:
Studentt检验
检验统计量:
T=(
-0)/(s/
)
Prob=P(t>|T|)
2M(sign),及Prob>|M|
检验假设H0:
总体中位数为零
检验方法:
总体中位数检验
检验统计量:
M=Min(小于0的观测个数,大于0的观测个数)—非零的观测个数/2
Prob=P(m>|M|)
3sgnRank及Prob>|S|)
检验假设H0:
总体中位数为零
检验方法:
符号秩和检验
检验统计量:
S=T+-(n+1)/2·n/2
Prob=P(s>|S|)
4正态性检验的W检验(n≤2000)
检验假设H0:
样本来自正态总体,或观测数据服从正态分布
检验方法:
Shapiro-Wilks的W检验
检验统计量:
W=Σai(X(x-i+1)-Xi)2/Σ(Xi-
)2
其中ai为W检验系数,W值介于0~1之间。
当W值愈接近于1,提示资料服从正态分布;反之,W偏离1愈远,则拒绝原假设,提示资料不服从正态分布。
亦即对此检验而言,W
5Kolmogorov-Smirnov正态性检验(n>2000)
检验假设H0:
样本来自正态总体,或观测数据服从正态分布
检验方法:
Kolmogorov-Smirnov频数分布拟合优度检验
检验统计量:
D=
{|fn(Xi)-F(Xi)|,|fn(Xi-1)-F(Xi)|}
D值越大,P值越小,提示资料不服从正态分布;反之,D值越小,P值越大,提示资料服从正态分布。
3.3.2UNIVARIATE过程与MEANS过程的不同
由于PROCUNIVARIATE语句中增加选项PLOT、NORMAL和FREQ,在OUTPUT语句中增加任意百分位数的计算功能,使其应用范围大大增加。
要注意在PROCUNIVARIATE过程中不使用CLASS语句,这与PROCMEANS过程不同。
3.4实用程序精选
3.4.1数值资料的统计描述过程
例3.2对110名7岁男童身高资料,试编制频数表、计算描述性统计量及进行正态性检验。
SAS程序为:
/*THEFOLLOWINGEXAMPLEISUNIVARIATEANALYSIS.*/;
PROCFORMAT;
VALUEYFMT1=’108-‘2=’110-‘3=’112-‘4=’114-‘5=’116-‘6=’118-‘7=’120-‘
8=’122-‘9=’124-‘10=’126-‘11=’128-‘12=’130-‘13=’132-134’;
(/*定义输出格式YFMT*/)
DATAP6;
DOI=1TO110;
INPUTX@@;
Y=INT((X-108)/2)+1;
FORMATYYFMT.;/*YFMT后的点“.”不能少*/
OUTPUT;
END;
CARDS;
112.4117.2122.7123.0113.0110.8118.2108.2118.9118.1
123.5118.3120.3116.2114.7119.7114.8119.6113.2120.0
119.7116.8119.8122.5119.7120.7114.3122.0117.0122.5
119.8122.9128.0121.5126.1117.7124.1129.3121.8112.7
120.2120.8126.6120.0130.5120.0121.5114.3124.1117.2
124.4116.4119.0117.1114.9129.1118.4113.2116.0120.4
112.3114.9124.4112.2125.2116.3125.8121.0115.4121.2
117.9120.1118.4122.8120.1112.4118.5113.0120.8114.8
123.8119.1122.8120.7117.4126.2122.1125.2118.0120.7
116.3125.1120.5114.3123.1122.4110.3119.3125.0111.5
116.8125.6123.2119.5120.5127.1120.6132.5116.3130.8
;
PROCFREQ;列频数表
TABLEY;
RUN;
PROCUNIVARIATEPLOTNORMAL;单变量分析(包括正态性检验)
VARX;
RUN;
运行结果:
CumulativeCumulative
YFrequencyPercentFrequencyPercent
108-10.910.9
110-32.743.6
112-98.21311.8
114-98.22220.0
116-1513.63733.6
118-1816.45550.0
120-2119.17669.1
122-1412.79081.8
124-109.110090.9
126-43.610494.5
128-32.710797.3
130-21.810999.1
132-13410.9110100.0
以上为频数表。
Y表示各组段,Frequency为各组段频数,Percent为各组段频率,CumulativeFrequency为各组段累积频数,CumulativePercent为各组段累积频率。
UnivariateProcedure
Variable=X
Moments
N110SumWgts110
Mean119.7273Sum13170
StdDev4.741325Variance22.48017
Skewness0.154611Kurtosis-0.02529
USS1579259CSS2450.338
CV3.960105StdMean0.452068
T:
Mean=0264.8437Pr>|T|0.0001
Num^=0110Num>0110
M(Sign)55Pr>=|M|0.0001
SgnRank3052.5Pr>=|S|0.0001
W:
Normal0.984798Pr 其中: Variable=X表示分析变量名 N: 用于计算统计量的记录个数 SumWgts: 观测的加权和 Mean: 变量均值 Sum: 所有观测的和 StdDev: 变量的标准差 Variance: 变量的方差 Skewness: 偏度的度量 Kurtosis: 峰度的度量 USS: 观测值平方和 CSS: 离均差平方和 C.V.: 变异系数 StdMean: 均值的标准差(标准误) T: Mean=0: 检验总体均值为0的假设检验的t值 Prob>|T|: 在H0成立条件下,t统计量大于T绝对值的概率 Num^=0非零观测的个数 Num>0: 观测值>0的观测个数 M(sign): 检验总体中位数为0的假设检验的符号统计量值 Prob>|M|,: 是在H0成立条件下,出现大于M绝对值的概率 SgnRank: 检验总体中位数为0的假设检验的符号秩和统计量值 Prob>|S|: 在H0成立条件下,出现大于|S|的概率 W: Normal: 正态性检验统计量 Prob 正态性检验相应的显著性概率(p值) Quantiles(Def=5) 100%Max132.599%130.8 75%Q3122.895%128 50%Med119.990%125.7 25%Q1116.410%113.1 0%Min108.25%112.3 1%110.3 Range24.3 Q3-Q16.4 Mode114.3 Extremes LowestObsHighestObs 108.2(8)129.1(56) 110.3(97)129.3(38) 110.8(6)130.5(45) 111.5(100)130.8(110) 112.2(64)132.5(108) 以上为单变量分析。 其中包括正态性检验的W检验,检验结果为Pr( UnivariateProcedure Variable=X StemLeaf#Boxplot 132510 131 130582| 129132| 12801| 12711| 1261263| 1250122686| 12411444| 123012585| 12209+-----+ 121025585|| 1200007778816|| 1190810*--+--* 118012344598|| 11701224797|| 116023334888+-----+ 11541| 1148| 11300224| 112234475| 11151| 110382| 109| 10821| ----+----+----+----+ 茎叶图(StemLeaf): 显示资料频数分布的特征。 图中数据值分为茎和叶,以数据的整数部分表示茎,叶为相应的小数部分,实际数据是茎叶乘以尺度比例。 盒状图(Boxplot): 由上四分位数和下四分位数划出盒(Box)的顶线和底线,中间的横线表示中位数的位置。 盒状图中的竖线称触须,表示数据散布的范围,它是1.5倍的四分位数间距。 超过该范围的数据用“0”表示;若超过了3倍以上四分位数间距的数据,则用#号标记。 UnivariateProcedure Variable=X NormalProbabilityPlot 132.5+* |++ |**+ |**++ |*++ |*+ |** |*** |**+ |+** |*** |+** 120.5+**** |*** |*** |*** |*** |*+ |**** |** |**+* |*+ |**+ |++ 108.5+*++ +----+----+----+----+----+----+----+----+----+----+ -2-10+1+2 此为正态概率图: 它是判断数值变量资料是否服从正态分布的图示法。 纵坐标为实测值标度,横轴按标准正态分布U值标度。 图中的“+”号描记标准正态u值的参考直线,“*”号描记实际数据点。 如样本来自正态总体,则观测值数据“*”构成的直线与参考直线基本重合,表明观测值数据服从正态分布。 本例观测值与参考直线基本重合,故该资料数据服从正态分布。 3.4.2几何均数计算实例 例3.340名麻疹易感儿接种麻疹疫苗后一个月,血凝抑制抗体滴度见表3.1,计算平均滴度。 表3.1平均滴度的计算 抗体滴度 频数 抗体滴度 频数 抗体滴度 频数 1: 4 1 1: 8 5 1:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 03 数值 资料 统计 描述