《生 物 统 计 学》实验指导.docx
- 文档编号:11328575
- 上传时间:2023-02-27
- 格式:DOCX
- 页数:47
- 大小:100.61KB
《生 物 统 计 学》实验指导.docx
《《生 物 统 计 学》实验指导.docx》由会员分享,可在线阅读,更多相关《《生 物 统 计 学》实验指导.docx(47页珍藏版)》请在冰豆网上搜索。
《生物统计学》实验指导
《—生物统计学—》
实验指导书
吴琼英编写
适用专业:
生物技术
生物工程
____________
江苏科技大学生物与化学工程学院
2012年9月
前言
统计学上的试验数据,往往样本含量都很大,因此其统计分析的计算过程比较复杂而且工作量也很大,目前已有数种成功的统计软件问世,其中常用的有EXCEL、SAS和SPSS。
本指导书中共包括六个实验,实验一对SAS软件的基本操作进行介绍,实验二至实验六介绍了统计学中几种常用的SAS程序。
通过本课程的学习使学生了解并初步学会使用SAS来分析试验数据,熟悉SAS编程格式、过程选项、语句和语句选项,理解SAS输出的内容、特点和意义。
为巩固课本上的学习内容,加强学习效果,本书中主要介绍了与课本章节相关的五种常用SAS程序。
包括:
利用SAS软件描述样本数据、统计假设检验的SAS程序、方差分析的SAS程序、线性回归分析的SAS程序和常用试验设计方差分析的SAS程序等,均为验证性实验项目。
本书适用于生物技术与生物工程专业的本科实验教学。
目录
实验一SAS软件基本操作1
实验二利用SAS软件描述样本数据5
实验三统计假设检验的SAS程序14
实验四方差分析的SAS程序17
实验五线性回归分析的SAS程序21
实验六常用试验设计方差分析的SAS程序25
实验一SAS软件基本操作
实验学时:
2
实验类型:
验证
实验要求:
必修
一、实验目的
1.SAS程序的管理系统。
2.SAS程序的编写。
3.SAS程序的执行。
二、实验内容
1.SAS系统的启动
单击开始菜单“程序”,光标移到“TheSASSystem”程序处,屏幕上会显示“TheSASSystemforWindows9.0”,选择并单击即启动SAS,或直接从桌面的SAS快捷键进入。
2.显示管理系统
(1)SAS启动后在屏幕上出现的是显示管理系统,该系统主要有3个窗口(输出、日志、编辑窗口)。
屏幕的左上角是命令框,在命令框内键入OUTPUT,则屏幕上会显示出OUTPUT窗口。
不同窗口之间的转换可以通过在命令框内键入相应命令来进行。
如:
KEYS:
进入KEYS窗口,显示功能键的位置
(2)一些主要窗口的功能:
PROGRAMEDITOR(PGM):
输入SAS程序和数据。
LOG:
显示执行程序过程中的有关信息。
OUTPUT:
显示程序执行的结果。
KEYS:
显示功能键的位置。
OPTIONS:
查看SAS系统设置。
(3)一些常用的命令
BYE:
退出SAS系统。
CLEAR:
清除当前工作窗口内容。
FILE(文件名):
将当前工作窗口中的内容储存到指定文件中。
HELP:
帮助。
NUMS:
显示PGM窗口数字区。
RECALL:
调出上次执行过的程序,以便校正、补充。
SUBMIT:
在PGM窗口输入程序后,键入命令,提交SAS执行这一程序。
ZOOM:
放大当前工作窗口,使窗口充满整个屏幕,
3.SAS程序的编写
一个SAS程序是由数据步(DATASteps)和过程步(PROCSteps)组成的。
(1)数据步
所谓数据步是以DATA语句开始的一组SAS语句。
建立外部数据文件或在作业流中输入数据;将外部数据文件转换为SAS数据集。
SAS是不能直接使用一个外部数据文件的,必须先由数据步转化为SAS数据集,然后才能提交给SAS进行分析。
①由外部数据文件建立SAS数据集
外部数据文件可以通过许多途径产生,但最方便的是在SAS系统的PGM窗口生成。
下面以在SAS系统的PGM窗口生成外部数据文件为例,说明如何建立外部数据文件。
例如,为了检验不同种类的肥料和三种不同程度的管理水平对作物产量的影响,设计了一个两因素交叉分组试验,四种不同肥料记为1、2、3、4,是一随机因素,三种管理水平记为L、M、H,是一固定因素,所得产量公斤数如下:
外部文件一般是矩形的,每个数值间要有一个空格,每一行对应一个观测,每一列对应一个变量。
如第一行对应的是第一次观测,即用第一种肥料、低水平管理所得产量为18公斤。
第一列为肥料变量、第二列为管理变量、第三列为产量变量。
数据输完之后,在命令框内健入fi1e‘F:
\trial.dat’,回车。
上述数据即以trial为文件名存入F盘内。
当然,也可以用其它文件名存入其它位置,外部数据文件的扩展名一律使用.dat。
或者,单击菜单栏中的“file”,在下拉菜单中选“saveas”,选定文件夹,在对话框内键入文件名。
这样所得到的数据文件,SAS并不能分析处理,必须转换为SAS数据集(DATASET)。
由外部数据文件转换为SAS数据集是由数据步(DATA步)完成的。
DATA步包含了为创建SAS数据集所需的若干SAS语句。
切换到PGM窗口,在命令框内键入NUMS,这时在PGM窗口内出现数字区。
从第一行开始输入DATA步的SAS语句,DATA步的组成如下:
datatrial;
infile‘F:
\trial.dat’;
inputfm$y;
run;
各语句的功能如下:
DATA:
表示一个DATA步的开始,指示SAS系统要创建一个名为“tria1”的SAS数据集。
INFILE:
用来打开外部数据文件,所要打开的外部数据文件名要用单引号括起。
INPUT:
是对外部数据文件的描述,SAS将根据INPUT语句的描述读入全部数据。
RUN:
指示SAS系统执行上述语句,由一个外部数据文件‘trial.dat’创建一个称为‘trial’的SAS数据集。
几点注意事项:
●SAS语句书写格式有很大的宽容度。
书写时可以从一行的任意位置开始。
同一行可以写几个语句,同一语句也可以写成几行,语句间必须以“;”隔开。
●语句的书写可以用大写字母或小写字母,也可大小写字母混合使用。
●INPUT语句中变量名的顺序要与数据集中相应的变量顺序一致。
●对于字符变量(如上例中的m),在变量名后应加上$号。
②库标记
任何SAS文件都包含两级命名,中间用“.”隔开。
一级名是库标记,用来识别数据集存储的位置,二级名才是数据集的名字。
SAS数据库分为临时数据库和永久数据库。
SAS启动后自动生成两个库标记,一个名为WORK,另一个名为SASUSER.前者是一临时库,后者是一永久库。
凡是只用二级名命名的数据集,它的一级名都是WORK。
前面创建的数据集“trial”,它的全名应当是“work.trial”。
小数点前面的work,指明数据集trial在work库内。
SAS在引用work库中的数据集进行分析处理时,库标记可以省赂,因此只需二级名即可。
在SAS结束后,WORK库中的所有数据集都将被删除,下次使用时,仍需从外部文件重新创建SAS数据集。
在创建SAS数据集时,如以SASUSER为一级名,则指明为永久库。
若上述数据集名为“sasuser.trial”,则为永久数据集,永久数据集一级名不能省略。
在结束SAS后数据集被保留。
在下次启动后仍可使用。
③在作业流中输入数据
若实验数据没有事先做成外部数据文件,也可以在用SAS分析处理数据的过程中输入。
仍以前例数据为例,说明在作业流中输入数据,以便产生SAS数据集的DATA步。
DATAtrial;
inputfm$y;
cards;
(以下输入数据,格式同前)
cards语句表示数据是作业流中的一部分。
(2)过程步
过程步(PROC步)是以PROC语句为开头的一个或一些SAS语句。
每一个过程语句实际上是一个已经编好的一组程序的名字,执行该语句即执行了这一组程序。
过程步是SAS用来处理分析数据的。
处理不同类型统计问题需要不同的PROC步。
4.SAS程序的执行
(1)提交程序
在命令框内键入SUBMIT命令,即将上述程序提交给SAS分析处理,在LOG窗口内显示运行过程中相关的信息。
运行结束后,在output窗口显示运行结果。
(2)修改错误语句
不论是DATA步还是PROC步,若忘记键入“;”或语句出现其它错误,在运行过程中LOG窗口即出现错误信息,这时应调回原输入程序进行修改。
调回的方法为:
切换到PGM窗口,在命令框键入RECALL命令,调出原输入程序,检查产生错误原因,修改后,重新运行。
(3)储存与打印
运行的结果和编写的程序可以储存起来。
若想储存所编写的程序,则切换到PGM窗口;若想储存运行的结果,则切换到OUTPUT窗口,然后在命令框键入“file‘路径及文件名’”,当前工作窗口内容即存储在外部文件中。
若在命令窗口键入“file‘PRN’”,则把当前工作窗口信息送到打印机打印。
三、实验组织运行要求
通过本实验使学生对SAS软件有一个初步的了解,掌握SAS程序在编写过程中的注意事项及外部数据文件的建立方法,从而为后续的实验打下基础。
实验分批分组进行,以班级为单位,确保每人都有使用计算机练习的机会。
教师以例题形式对程序进行讲解,并对学生进行个别指导。
四、实验条件
计算机,SAS软件。
五、实验步骤
根据实验指导书练习SAS软件的基本操作。
六、实验报告
写出SAS程序在编写过程中的注意事项及外部数据文件的建立方法。
实验二利用SAS软件描述样本数据
实验学时:
2
实验类型:
验证
实验要求:
必修
一、实验目的
1.利用MEANS语句描述数据。
2.利用PROCFREQ过程编制频数分布表。
3.利用GCHART过程绘制离散型数据的柱状图;用CAPABILITY过程绘制连续型数据的频率直方图。
二、实验内容
1.用MEANS语句描述数据
例2.1计算课本上习题1.2的平均数和标准差。
解:
在进行分析之前,最好先建立一个外部数据文件。
如果不建立外部数据文件,在作业流中输入数据也可以。
一般来说,在数据量比较大,有可能重复使用时,最好建立一个数据文件。
在这里我们创建一个称为2-1data的外部数据文件,存储在F盘中。
用MEANS过程描述数据的最基本的程序如下:
optionslinesize=76;
dataabc;
infile‘F:
\2-1data.dat’;
inputx;
run;
procmeans;
run;
提交SAS运行后,所得结果如下:
表2.1例2.1输出的结果
TheSASSystemAnalysisVariable:
X
N
Mean
StdDev
Minimum
Maximum
250
63.2760000
3.0139941
55.0000000
70.0000000
打印的结果中包括:
数据个数,平均数,标准差,最小值和最大值。
这是MEANS语句在缺省时得到的基本结果。
若需要对数据作更详细的描述,则要指明所需的统计量。
用MEANS过程所计算的统计量,在这里也一并列出。
MEANS过程所计算的统计量是用关键词表示,这些关键词及其含义如下:
N:
输入的观测值个数
MEAN:
变量的平均数
STD:
变量的标准差
MIN:
变量的最小值
MAX:
变量的最大值
RANGE:
变量的极差
SUM:
变量所有值的和
VAR:
变量的方差
USS:
每一变量原始数据的平方和(未校正平方和)
CSS:
每一变量的离均差平方和(校正平方和)
CV:
变异系数
STDERR:
每一变量的标准误差(平均数的标准差)
T:
在H0:
μ=0时的t值(见课本5.1.4)
PRT:
在H0:
μ=0的假设下,统计量t大于t临界值绝对值的概率(见课本4.1.1)
CLM:
置信区间的上限和下限(见课本6.2.1)
LCLM:
置信区间的下限
UCLM:
置信区间的上限
另外,在PROCMEANS语句中还有12个选项,其中几个主要选项如下:
DATA=(SAS数据集):
指出SAS数据集的名称,若省略,则使用最近产生的数据集
MAXDEC=(数字):
所输出的结果中,小数部分的最大位数(0~8),缺省时为8位
FW=(域宽):
指出打印的结果中每个统计量的域宽,缺省时为12
VARDEF=(DF/N):
VARDEF=DF为缺省值,表示计算方差时,使用n-1作分母
VARDEF=N表示计算方差时,使用观测值个数n作分母
ALPHA=(α值):
指出在计算置信区间时,选用的显著水平
例2.2计算课本上习题1.2的离均差平方和、方差、偏斜度和平均数的0.95置信区间。
解:
仍然使用2-1data外部数据文件。
MEANS过程如下:
optionslinesize=76;
dataabc;
infile‘F:
\2-1data.dat’;
inputx;
run;
procmeansdata=abcmaxdec=4fw=8alpha=0.05
cssvarskewnessclm;
run;
运行的结果如下:
表2.2例2.2输出的结果
TheSASSystemAnalysisVariable:
X
CSS
Variance
Skewness
Kurtosis
Lower95.0%CLM
Upper95.0%CLM
2261.96
9.0842
-0.1548
-0.1894
62.9006
63.6514
在PROCMEANS语句中,data=abc选项是可以省略的,因为PROCMEANS语句所分析的正是最近的SAS数据集,若需从SAS数据库中调用某一数据集时,则DATA选项不可省略。
在建立外部数据文件时,应每个数据占一行,250个数据占250行(只占一列)。
这样输入数据太麻烦,核对起来也不方便。
如果想连续输入数据,则应在INPUT语句的变量后加上@@,即“inputx@@;”,具体说明见例2.4。
在进行科学研究时,需要处理的变量数目往往很多,而且变量之间还存在一定关系,经常要计算在某一变量特定水平下,其它变量的一些特征数。
例如,在做人群健康情况调查时,涉及的变量多达十几个甚至几十个。
如,性别、年龄、身高、体重、吸烟程度、饮酒程度、视力、听力、血压、脉搏、血黏度、胆固醇含量……。
如果要计算不同程度吸烟者或不同性别受检者的各项指标或其中若干项指标的某些统计量,只需加上VAR语句和CLASS语句,便能很容易完成此项工作。
VAR语句指明所需描述的变量,CLASS语句可以按观测值的不同类别分类计算指定的统计量。
例2.3在做小麦育种时,调查了杂交后代的若干性状,选取其中一部分列在下表中(表2.3)。
在表2.3中共列举了四个变量,即:
株高、穗长、穗粒数和成熟早晚。
分别用hop、loe、nog和fas代表上述四个变量,以成熟的早(e)、中(m)、晚(l)分类,分别计算株高与穗长的平均数、标准差和标准误差以及穗粒数的范围和变异系数。
表2.3
608.060m618.050m618.561l617.554e657.550l636.546e627.048l637.545m668.054m617.050e637.048e678.050l668.054l707.044e628.054e
658.055l
639.056e
679.052m
647.046e
628.056e
659.058m
688.548e
646.544m
637.052e
628.048e
637.050l
698.052l
637.552m
687.046e
617.552e
657.548e
668.048l
708.046e
688.048m
628.562m
658.566m
609.064e
697.548e
668.046e
687.542m
709.046m
697.042l
728.052e
667.552m
708.050m
697.550l
718.050e
676.038l
677.548e
解:
先建立一个称之为2-3data的外部数据文件,外部数据文件的格式如表2.3所示。
PROCMEANS程序如下:
optionslinesize=76;
datawheat;
infile‘F:
\2-3data.dat’;
inputhoploenogfas$;
run;
procmeansmaxdec=2fw=8maxminmeanstdstderr;
varhoploe;
classfas;
procmeansdata=wheatrangecv;
varnog;
classfas;
run;
输出结果见表2.4。
表2.4例2.3输出的结果
TheSASSystem
FAS
NObs
Variable
Maximum
Minimum
Mean
StdDev
StdError
e
23
HOP
72.00
60.00
65.09
3.64
0.76
LOE
9.00
6.50
7.70
0.67
0.14
l
12
HOP
69.00
61.00
65.75
2.70
0.78
LOE
8.50
6.00
7.54
0.69
0.20
m
15
HOP
70.00
60.00
65.20
3.08
0.79
LOE
9.00
6.50
8.03
0.69
0.18
TheSASSystem
AnalysisVariable:
NOG
FAS
NObs
Range
CV
e
23
20.0000000
9.1612372
l
12
23.0000000
11.8202275
m
15
24.0000000
13.3156456
2.频数分布表的编制
可以利用PROCFREQ过程编制频数分布表。
例2.4利用PROCFREQ过程,编制课本上例1.1原始数据的频数分布表。
解:
将120天中每天新生儿体重超过3公斤的人数,建成一个名为2-4data的外部数据文件,存储在F盘中。
编制频数分布表的程序如下:
optionslinesize=76;
datababy;
infile‘F:
\2-4data.dat’;
inputnumber@@;
run;
procfreq;
run;
INPUT语句中的@@称为双尾符,它的作用是在SAS从数据文件中读取数据时,读完一个数据行的第一个观测后指针并不移到下一行,而停留在观测后的第二列,接着读这一行的第二个观测,在指针移过数据行末尾时,自动为该行解固。
因此,在建立数据文件时,每一个数据行可以输入几个观测。
如建立2-3data.dat数据集时,每一个数据行就不仅是一个观测的四个值,而可以是几个观测,譬如:
608.060m618.050m618.561l617.554e657.550l636.546e….上述程序输出的结果如表2.5。
表2.5例2.4输出的结果
TheSASSystem
Cumulative
Cumulative
NUMBER
Frequency
Percent
Frequency
Percent
3
1
0.8
1
0.8
4
2
1.7
3
2.5
5
12
10.0
15
12.5
6
19
15.8
34
28.3
7
39
32.5
73
60.8
8
34
28.3
107
89.2
9
10
8.3
117
97.5
10
3
2.5
120
100.0
可以用同样的方法编制非数值型变量的频数分布表。
例2.5编制表2.3中“成熟早晚”的频数表。
解:
datawheat;
infile‘F:
\2-3data.dat’;
inputhoploenogmature$;
run;
procfreq;
tablemature;
run;
所得结果如下:
表2.6例2.5输出的结果
TheSASSystem
Cumulative
Cumulative
MATURE
Frequency
Percent
Frequency
Percent
e
23
46.0
23
46.0
l
12
24.0
35
70.0
m
15
30.0
50
100.0
对于连续型数据,也可以用PROCFREQ过程编制频数分布表。
例2.6编制课本上表1-2高粱三尺三株高的频数分布表。
解:
先建立一个名为2-6data的外部数据文件。
SAS程序如下:
procformat;
valuehfmt
141-143=’141-143’144-146=’144-146’147-149=’147-149’150-152=’150-152’153-155=’153-155’156-158=’156-158’159-161=’159-161’162-164=’162-164’165-167=’165-167’168-170=’168-170’;
run;
datasorghum;
infile‘F:
\2-6data.dat’;
inputhight@@;
run;
procfreq;
tablehight;
formathighthfmt.;
run;
这里使用PROCFORMAT过程的目的是将数据按使用者的要求格式化。
VALUE语句中要给出被定义的输出格式名,在这里称为hfmt。
若以组界分组,还需加上“<”或“>”号,如143.5-<146.5=’144-146’等。
在PROCFREQ过程的FORMAT语句中一定要在hfmt之后加上一个“.”。
输出结果如下:
表2.7例2.6输出的结果
TheSASSystem
HIGHT
Frequency
Percent
CumulativeFrequency
CumulativePercent
141-143
1
1.0
1
1.0
144-146
2
2.0
3
3.0
147-149
4
4.0
7
7.0
150-152
13
13.0
20
20.0
153-155
23
23.0
43
43.0
156-158
28
28.0
71
71.0
159-161
15
15.0
86
86.0
162-164
10
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生 物 统 计 学 生 学实验指导 实验 指导