试验数据统计分析步骤.docx
- 文档编号:1174786
- 上传时间:2022-10-18
- 格式:DOCX
- 页数:14
- 大小:1.10MB
试验数据统计分析步骤.docx
《试验数据统计分析步骤.docx》由会员分享,可在线阅读,更多相关《试验数据统计分析步骤.docx(14页珍藏版)》请在冰豆网上搜索。
试验数据统计分析步骤
试验数据统计分析教程
第一章:
数据分析基本方法与步骤
§1-1:
数据分类(定量资料和定性资料)
统计资料一般分为定量资料和定性资料两大类。
定量资料测定每个观察单位某项指标量的大小,所得的资料称为定量资料。
定量资料又可细分为计量资料(可带度量单位和小数点,如:
某人身高为1.173m)和计数资料(一般只带度量单位,但不可带小数点,如:
某人脉搏为73次/min)。
①计量资料在定量资料中,若指标的取值可以带度量衡单位,甚至可以带小数标志测量的精度的定量资料,就叫“计量资料”。
例如测得正常成年男子身高、体重、血红蛋白、总铁结合力等所得的资料。
②计数资料在定量资料中,若指标的取值可以带度量衡单位,但不可以带小数即只能取整数,通常为正整数的定量资料,就叫“计数资料”。
例如测得正常成年男子脉搏数次、引体向上的次数次。
定性资料观测每个观察单位某项指标的状况,所得的资料称为定性资料。
定性资料又可细分为名义资料(如血型分为:
A、B、AB、O型)和有序资料(如疗效分为:
治愈、显效、好转、无效、死亡)。
①名义资料在定性资料中,若指标的不同状况之间在本质上无数量大小或先后顺序之分的定性资料,就叫“名义资料”。
例如某单位全体员工按血型系统型、型、型、型来记录每个人的情况所得的资料;又例如某市全体员工按职业分为工人、农民、知识分子、军人等来记录每个人的情况所得的资料。
②有序资料在定性资料中,若指标质的不同状况之间在本质上有数量大小或有先后顺序之分的定性资料,就叫“有序资料”。
例如某病患者按治疗后的疗效治愈、显效、好转、无效、死亡来划分所得的资料;又例如矽肺病患者按肺门密度级别来划分所得的资料。
判断资料性质的关键是把资料还原为基本观察单位的具体取值形式,而不要被资料的表现所迷惑。
关键是要看每一个具体的取值是由“观察单位个数”计算得到的,还是由每一个观察单位自身的观测结果计算得到的。
若属于前者,就应叫定性资料。
若属于后者,就应叫定量资料。
§1-2:
重复取样、重复测量、重复试验
重复原则的概念重复通常有三层含义,即“重复取样”、“重复测量”和“重复试验”。
1,重复取样:
从同一个样品中多次取样,测量某定量指标的数值,称为“重复取样”。
2,重复测量:
对接受某种处理的个体,随着时间的推移,对其进行多次观测,称为“重复测量”。
3,重复试验:
试验设计中所讲的重复原则指的是“重复试验”,即在相同的试验条件下,做两次或两次以上的独立试验。
这里的“独立”是指要用不同的个体或样品做试验,而不是在同一个体或样品上做多次试验。
整个试验设计所包括的各组内重复试验次数之和,称为样本大小或样本含量(n)。
相同的试验条件下,对不同的受试对象(或样品)进行观测称为n次独立的重复试验。
在不同的试验条件下(通常为不同时间),对同一受试对象进行反复观测,称为重复测量。
重复测量数据之间并不满足独立性的要求。
相同试验条件下的试验次数称为样本含量n,n≤3,当指标的变异度较大时,很难呈现出数据之间的规律性。
对照组的形式有多种,即自身对照(处理前、后对照)、完全随机对照(空白对照、相互对照、试验对照、标准对照)、中外或历史对照。
在实际应用中,往往是多种对照形式同时运用。
§1-3:
试验设计的基本类型
试验设计类型有几十种,其中常见的有:
配对设计、成组设计、单因素K水平设计(K≥3)、配伍组设计、拉丁方设计、交叉设计、析因设计、正交设计和具有重复测量的设计。
从是否便于考察因素之间交互作用的角度看,前六种设计都不便考察交互作用,后三种设计是可以考察交互作用的。
从同时考察因素的个数多少角度看,前三种设计都属于单因素设计,配伍组设计属于二因素设计,拉丁方设计、交叉设计都属于三因素设计,而后三种设计即可以用于二因素设计,又可以用于多因素设计。
由于配伍组设计、拉丁方设计和交叉设计都不便考察交互作用,故最适合用于安排只含一个处理因素,含一个或二个区组因素的试验研究场合。
如果试验中同时涉及二个或二个以上处理因素,因素之间的交互作用往往又是不可忽视的,此时,就应当选用析因设计或正交设计。
如果希望观察接受不同处理的几组受试对象某些定量观测指标随时间推移的动态变化趋势,需要在不同时间点上从同一个受试对象身上进行多次观测,这就是所谓的重复测量设计。
§1-4:
定量资料的分析程序
一、定量资料分析的步骤
①若数据服从正态分布,且满足方差齐性(即两组或多组总体方差相等),一般优先选用参数检验法,如t检验、U检验、方差分析(亦称F检验)等;
②若数据的分布类型不明确,或不满足参数检验的前提条件,可选用非参数检验法,如符号检验,秩和检验等;
③若资料经某种变量变换后已满足参数检验的前提条件,仍可对变换后的数据进行参数检验;
④若只有一个试验因素,称为单因素,当它只有两个水平时,可选用t检验;当两组样本含量都很大时,可用U检验取代t检验;
⑤若属单因素k水平设计(k≥3)或两个及两个以上因素的各种试验设计时,都必须选用F检验;
⑥若观察的效应指标(即研究者关心的定量观测指标)只有一个,可选择上述特定设计类型下的一元分析;
⑦若效应指标有两个或两个以上,且在专业上需同时考察,则应选择多元分析方法。
二、定量资料分析误区
1,t测验适用范围及应用误区
t检验的前提条件:
用于比较均值的t检验可以分成3类。
第一类是针对单组设计定量资料的;第二类是针对配对设计定量资料的;第三类则是针对成组设计定量资料的。
后两种设计类型的区别在于事先是否将两组研究对象按照某一个或几个方面特征相似配成对子。
无论哪种类型的t检验,都必须在满足特定的前提条件下应用才是合理的。
t测验进行均值比较对应的试验设计类型较少,只有单组设计、配对设计和成组设计3种,t测验处理前2种设计类型的定量资料时,资料应满足正态分布的要求,处理成组资料时,应满足方差齐性和正态分布的要求。
t检验每次只能比较二个平均数,因此,它仅适用于单因素一、二水平的实验设计类型。
t检验仅适合分析单组、配对及成组设计的定量资料,并不适合分析单因素k(k≥3)水平设计定量资料和多因素设计定量资料。
当设计类型为单因素多水平或多因素设计时,若仍用t检验分析资料,是不妥当的。
对于配对设计的定量资料,应计算各配对数据的差值,将资料转换为单组设计的定量资料,比较差值的平均值与0之间的差别是否具有统计学意义。
当然进行单组设计的t检验前仍要对数据作正态性检验,如不满足正态性的前提条件,可寻找适当的方法(如取对数,平方根变换等)对数据进行变量变换,变量变换后还要进行正态性检验,若资料满足正态分布的前提条件,可用t检验;若资料仍不满足正态分布的前提条件,可采用非参数检验,如配对设计定量资料的符号秩检验进行分析。
2,单因素方差分析及多重比较
如果单因素多水平资料分别满足正态性、方差齐性,则可选用方差分析。
若方差分析的结果为各组均数之间的差别有显著或非常显著性意义(P<0.05或P<0.01),尚需作多个均数之间的两两比较。
若各组中任何两组之间都需要比较,有多种方法,其中较常用的方法叫q检验;若只比较处理组(多组)与对照组,则应选用dunnett的t检验。
后者与通常的t检验(称为student’stest)是有很大区别的。
对于百分率的定量指标,一般根据经验,宜做平方根反正弦变换,当资料满足正态性和方差齐性的前提条件后,可采用方差分析处理资料;若变量变换后仍不满足前提条件,则应采用非参数检验。
若资料中的数据均为正值且符合正态分布,通常其标准差要小于均值。
3,如何比较重复测量结果
数据特征:
首先,应知道什么样的设计叫做重复测量设计。
简单地说,对一组或多组受试对象,在k个(k≥2)不同的时间点上,从每个个体(或样本)上重复观测同1个指标的具体取值的设计,统称为重复测量设计。
若重复测量数据在各时间点之间的关系满足一种特殊的条件(称资料满足H2F条件,则可将各时间点上测得的数据看作受“时间因素”影响的结果。
在每次仅考察一个定量指标时,可以用重复测量设计资料的单变量方差分析处理资料;反之,可对数据作正交变换,若此时的资料满足H2F条件,就可作正交回归模型分析;若资料也不适合作正交回归模型分析,需将从各时间点上测得的数据视为测自不同的指标,采用多变量方差分析;此时,还可进一步考察各时间点上数据之间是否具有某种特殊关系(称为协方差结构),从而采用更细致的混合模型分析法。
资料是否满足H2F条件,需要进行球形检验(sphericitytest),当检验的结果为P>0.05时,表明资料满足H2F条件
§1-5:
相关和回归分析
一、相关和回归分析的异同
1,直线相关和回归分析的差异
适用于两个变量之间的分析(即一个自变量和一个因变量)。
①分析目的不同
直线相关分析的目的是描述具有直线关系的两变量间相关关系的密切程度和方向,反映两个随机变量的相互关系。
直线回归分析的目的是定量地描述两个变量之间的依存或依赖关系,以便用一个变量去推测另一个变量的值。
②资料要求不同
回归分析只要求Y服从正态分布,相关分析要求X、Y均服从正态分布。
直线回归分析时,要求响应变量是随机变量且服从正态分布。
若自变量可以精确测量和严格控制,此时资料为Ⅰ型回归分析资料;若自变量也是随机变量且服从正态分布,则资料为Ⅱ型回归分析资料。
在进行直线相关分析时,则要求两个变量均为随机变量且服从正态分布,也就是说只有Ⅱ型回归分析资料才能进行直线相关分析(Spearman秩相关分析可分析定量资料与定性资料的相关性)。
③统计量量纲单位不同
相关系数是无量纲的统计量,而斜率却是有量纲的统计量,其量纲为“响应变量量纲自变量量纲”,截距的量纲与响应变量量纲相同史。
2,相关和回归分析的相同点
①方向一致
对某资料同时计算直线相关系数和直线回归系数,可发现它们的正负号一致。
②假设检验等价
对同一样本,对其直线相关系数和直线回归系数进行假设检验所得到的值是相同的。
3,直线相关与回归分析的关键点(绘制散布图)
将(X,Y)的n对数值绘在直角坐标系内,得到X与Y变化趋势的散布图,如果n个点形成的散布图呈一条明显的曲线趋势时,宜拟合一条曲线回归方程;如果n个点在一条不太宽的长带内随机地分布着,此“长带”不与X轴平行,也不与Y轴垂直,且各散点的分布情况不存在明显的曲线趋势,可考虑进行直线相关和回归分析;如果n个点形成的散布图近似于一个圆盘,则说明X与Y之间无确定的变化趋势,几乎是互相独立的,不能硬把他们捏合在一起分析。
4,直线相关与回归分析要点总结
①必须有专业知识为依据;②必须绘制散布图,并正确分析散布图;③计算关键的统计量(如r、a、b),并进行假设检验;④结合专业和统计学知识判断所作的统计分析是否有实用价值。
若是直线相关分析,就是要结合r2的数值大小(一般应r2>0.5),给出较为明确的专业结论;若是直线回归分析,就是要看所拟合的直线回归方程与全部散点的吻合程度,对直线回归方程中的2个参数(总体截距、总体斜率)的假设检验是否都具有统计学意义,其正负号是否符合专业上的含义,整个直线回归方程的剩余标准差是否较小,将各X值代入直线回归方程后,其对应的Y的预测值在专业上是否都成立。
二、一元多因素回归分析方法
当结果变量(常称为应变量)依赖于原因变量(常称为自变量)变化时,研究应变量随多个自变量变化的规律所对应的统计分析方法,称为多重回归分析。
进行多重回归分析时应把握的要领如下。
①当应变量为近似服从正态分布的随机变量时,常选用多重线性回归分析。
②当应变量分别为二值变量、多值有序变量或多值名义变量时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 试验 数据 统计分析 步骤