医学统计学总结.docx
- 文档编号:29236825
- 上传时间:2023-07-21
- 格式:DOCX
- 页数:40
- 大小:162.41KB
医学统计学总结.docx
《医学统计学总结.docx》由会员分享,可在线阅读,更多相关《医学统计学总结.docx(40页珍藏版)》请在冰豆网上搜索。
医学统计学总结
医学统计学总结
一.绪论
1,医学统计学:
运用概率论和数理统计学的原理和方式,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而说明其客观规律性的一门应用科学。
2,医学统计学的要紧内容:
1)统计研究设计调查研究设计和实验研究设计
2)医学统计学的大体原理和方式研究设计和数据处置中的大体统计理论和方式。
A:
资料的搜集与整理B:
经常使用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图C:
统计推断,如参数估量和假设查验。
3)医学多元统计方式多元线性回归和慢慢回归分析、判别分析、聚类分析、主成份分析、因子分析、logistic回归与Cox回归分析。
3,统计工作步骤:
1)设计明确研究目的和研究假说,确信观看对象与观看单位,样本含量和抽样方式,拟定研究方案,预期分析指标,误差操纵方法,进度与费用。
2)搜集材料
A,搜集材料的原那么及时、准确、完整
B,统计资料的来源医学领域的统计资料的来源要紧有三个方面。
一是统计报表,二是常常性工作记录,三是专题调查或专题实验。
C,资料贮存
3)整理资料a检查查对b设计分组c拟定整理表d归表
4)分析资料统计分析包括统计描述和统计推断
4,同质(homogeneity):
指被研究指标的阻碍因素相同。
变异(variation):
同质基础上的各观看单位间的不同。
变量(variable):
搜集资料进程中,依照研究目的确信同质观看单位,再对每一个观看单位的某项特点进行测量或观看,这种特点称为变量
变量值:
变量的观看结果或测量值。
变量类型
变量值表现
实例
资料类型
数值变量
离散型
定量测量值,有计量单位
产前检查次数
计量资料
连续型
身高
分类变量
无序
二分类
对立的两类属性
性别(男女)
计数资料
多分类
不相容的多类属性
血型(A,B,O,AB)
有序
多分类
类间有程度差异的属性
受教育程度(小学,中学,高中,大学…)
等级资料
5,整体(population)依照研究目的所确信的同质研究对象中所有观看单位某变量值的集合。
整体具有的大体特点是:
同质性
样本(sample)从整体中随机抽取部份观看单位,其变量值的集合组成样本。
样本必需具有代表性。
代表性是指样本来自同质整体,足够的样本含量和随机抽样的前提。
统计量(statistics)描述样本变量值特点的指标(
样本率,
样本均数,
样本标准差)。
参数(parameter)描述整体变量值特点的指标(
整体率,
标准差,
整体均数)。
抽样误差(samplingerror):
由于个体不同的存在,即便在同一整体中随机抽取假设干样本,各样本的统计量往往不等,统计量与参数也会有所不同。
这种因抽样研究引发的不同称抽样误差。
随机事件(randomevent)对随机实验的各类可能结果的集合。
概率(probability)描述随机事件发生的可能性大些哦的一个气宇。
小概率事件假设随机事件A的概率P(A)≤α,适应上,α=0.05时,就称A为小概率事件。
其统计学意义是小概率事件在一次随机实验中以为可不能发生。
抽样误差
1,抽样误差(samplingerror)由抽样而造成的样本统计量与整体参数之间的不同或各样本统计量之间的不同。
在医学统计学中,常把由抽样造成的样本均数与整体均数间的不同称为均数的抽样误差;由抽样造成的样本率与整体率之间的不同称为率的抽样误差。
2,样本均数的标准差
(简称标准误,standarderror)反映均数的抽样误差大小的指标。
大,抽样误差大;反之,
小,抽样误差小。
(3.1)
实际工作中
往往未知的,可用样本标准差s作
的估量值,计算标准误的估量值
。
(3.2)
3,标准误的用途:
a,衡量样本均数的靠得住性;b,估量整体均数的置信区间;3,用于均数的假设查验。
4,标准误的估量值
的用途:
a,描述抽样误差的大小;
b,整体参数的估量;
c,用来进行假设查验。
5,率的抽样误差:
由抽样造成的样本率与整体率的不同称为率的抽样误差。
衡量率的抽样误差大小的指标是率的标准误
。
越小,率的抽样误差越小;
越大,率的抽样误差越大。
(3.3)
其中
为整体率。
实际工作中,由于
往往是未知的,可用样本率p作
的估量值,计算率的标准误
的估量值
。
(3.4)。
标准差(s)
标准误
计算公式s=
(1)表示观察值的变异程度
(1)估计均数的抽样误差的大小
(2)计算变异系数CV=
100%
(2)估计总体均数的可信区间
(
,
)
(3)确定医学参考值范围
(3)进行假设检验
(4)计算标准误
简述标准差、标准误的区别与联系?
区别:
(1)含义不同:
标准差S表示观看值的变异程度,描述个体变量值(x)之间的变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。
标准误
估量均数的抽样误差的大小,是描述样本均数之间的变异度大小,标准误越大,样本均数与整体均数间不同越大,抽样误差越大;反之,样本均数越接近整体均数,抽样误差越小。
(2)与n的关系不同:
n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。
(3)用途不同:
标准差表示x的变异度大小、计算变异系数、确信医学参考值范围、计算标准误等,标准误用于估量整体均数可信区间和假设查验。
联系:
二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。
标准差:
标准误:
二.散布
正态散布
1,正态散布的函数
其中
为整体均数,
为整体标准差,
为圆周率,
为自然对数的底,且仅
为变量。
以
为横轴,以
为纵轴,当均数和标准差已知时即可绘出正态散布曲线。
为应用方便,将式中
进行变量变换,使原先的正态散布变成
的标准正态散布,亦称
散布。
被称为标准正态变量或标准正态离差,将
代入上述公式即得标准正态散布的密度函数
。
(2.17)
(2.18)
2,正态散布的特点
(1)正态曲线(normalcurve)在横轴上方均数处最高。
(2)正态散布以均数为中心,左右对称。
(3)正态散布有2个参数(parameter),即均数
(位置)和标准差
(形状)。
当
固定不变时,
越大,曲线沿横轴越向右移动;反之,
越小,那么曲线沿横轴越向左移动。
当
固定不变时,
越大,曲线越平阔;
越小,曲线越尖峭。
通经常使用
N(
,
)表示均数为
、方差为
的正态散布。
用(0,1)表示标准正态散布。
(4)正态散布在
1
处各有一个拐点。
(5)正态曲线下面积的散布有必然规律。
3,经常使用的两个区间:
1.96
及
2.58
的区间面积别离占总面积的95%及99%。
4,正态散布的应用
1),制定医学参考值范围
a,正态散布法适用于正态或近似正态散布的资料双侧界值:
;单侧上界:
,或单侧下界:
。
b,对数正态散布法适用于对数正态散布资料双侧界值:
;单侧上界:
,或单侧下界
c,百分位数法经常使用于偏态散布资料及资料中一端或两头无确切数值的资料。
双侧界值:
和
;单侧上界:
,或单侧下界:
。
2)正态散布是多种统计方式的理论基础如t散布,F散布,
散布都是在正态散布的基础上推导出来的,
散布也是以正态散布为基础的。
另外t散布,二项散布,poisson散布的极限为正态散布,必然条件下可按正态散布原理处置。
t散布
1,t散布:
(3.5)
t散布的特点为:
1.以0为中心,左右对称的单峰散布。
2.t散布曲线形态转变与自由度的大小有关。
自由度
越小,那么t值越分散,曲线越低平;自由度
慢慢增大时,那么t散布慢慢逼近正态散布(标准正态散布)。
当
=
时,t散布为u散布。
t界值表附图中非阴影部份面积的概率为:
2,整体均数的估量:
用样本指标估量整体参数称为参数估量,是统计推断的一个重要方面。
整体均数的估量有2种方式。
一是直接用统计量
估量整体参数
,称为点值估量。
由于抽样误差的存在,此法很难估量准确。
二是区间估量(intervalestimation)法。
区间估量是按必然的概率100(1-
)%估量整体均数所在的范围,亦称可信区间(confidenceinterval,CI)。
常取的可信度为95%和99%,即95%可信区间和99%可信区间。
计算方式有3种:
(1)
未知且n小按t散布原理用式(3.6)计算可信区间。
由于
将
代入,得
那么整体均数的100(1-
)%可信区间的通式为:
(3.6)或写成(
,
)。
(2)
未知,但n足够大时(n>100)t散布逼近u散布,按正态散布原理,用式(3.7)估量可信区间。
(
)(3.7)
(3)
已知按正态散布原理,用式(3.8)估量可信区间。
(
)(3.8)
标准正态散布(u散布)与t散布有何异同?
答:
相同点:
t散布和标准正态散布(u散布)都是以0为中心的正态散布。
标准正态散布是t散布的特例(自由度是无穷大时)。
不同点:
t散布为抽样散布,u散布为理论散布;t散布比标准正态散布的峰值低,且尾部翘得更高;t散布受自由度大小的阻碍,随着自由度的增大,慢慢趋近于标准正态散布;t散布有无数条曲线,而u散布只有唯一一条曲线。
二项散布
1,二项散布(binomialdistribution)是对只具有2种互斥结果的离散型随机事件的规律性进行描述的一种概率散布。
二项散布概率公式:
(3.9)
式中n为独立的贝尽力实验次数,
为成功的概率,(1-
)为失败的概率,X为在n次贝尽力实验中显现“成功”的次数,
表示在n次实验中显现X的各类组合数,在此称为二项系数(binomialcoefficient)。
2,二项散布的应用条件:
(1)各观看单位只能具有彼此对立的一种结果,如阳性或阴性,生存或死亡。
(2)已知发生某一结果(阳性)的概率为
,其对立结果的概率为1-
,实际工作中要求
是从大量观看中取得比较稳固的数值。
(3)n次实验在相同条件下进行,且各个观看单位的观看结果彼此独立。
3,二项散布的性质:
A,二项散布的均数和标准差在二项散布的资料中,
当
和n已知时,它的均数
及其标准差
如下:
=n
(3.11)
(3.12)
假设均数和标准差不用绝对数表示,而是用率表示时,即对式(3.11)(3.12)别离除以n,得:
(3.13)
(3.14)
是样本率的标准误的理论值,当
未知时,经常使用样本率p作为
的估量值,那么:
(3.15)
B,二项散布的累计概率二项散布的累计概率(cumulativeprobability)经常使用的有左侧累计和右边累计2种方式。
从阳性率为
的整体中随机抽取n个个体,那么
(1)最多有k例阳性的概率
(3.16)
(2)最少有k例阳性的概率
(3.17)
D,二项散布的形状取决于
和n的大小:
(1)当
=0.5时,散布对称;当
<0.5时,散布呈正偏态,且固定n时,
越小,散布越偏;当
>0.5时,散布呈负偏态,且固定n时,
越大,散布越偏。
(2)对固定的
,散布随n的增大趋于对称。
4,整体率的估量
整体率的估量也有点估量和区间估量,点估量是简单地用样本率来估量整体率;区间估量是求出整体率的可能范围。
样本率的理论散布和样本含量n、阳性率p的大小有关,因此需要依照n和p的大小不同,别离选用以下2种方式。
(一)查表法当样本含量n较小,如n≤50,专门是p很接近于0或1时,按二项散布的原理估量整体率的可信区间。
(二)正态近似法当样本含量n足够大,且样本率p或1-p均只是小,如np与n(1-p)均大于5时,样本率的p的抽样散布近似正态散布,整体率
的可信区间可按以下式(3.17)进行估量。
(3.17)
Poisson散布
1,Poisson散布泊松散布是在
很小,样本含量n趋向于无穷大时,二项散布的极限形式。
更多地用于研究单位时刻、单位人群、单位空间内,某罕有事件发生的次数的散布。
X=0,1,2
(3.19)
式中
=n
为Poisson散布的整体均数,X为单位时刻或单位空间内某事件的发生数,e为自然对数的底,约等于2.71828。
在实际运算中,P(X)亦可按式(3.20)作递推计算。
(3.20)
2,Poisson散布应用条件:
A,要求事件的发生是彼此独立
B,发生的概率相等
C,结果是二分类
3,Poisson散布的性质:
A,该散布是一种单参数的离散型散布,其参数为
,它表示单位时刻或空间内某件事平均发生的次数,又称强度参数。
B,Poisson散布的方差
和均数
相等,即
=
C,Poisson散布的累计概率
(1)最多为k次的概率
(2)最少为k次的概率
4,Poisson散布的图形
已知
,就可按公式计算得出X=0,1,2,
时的P(X)值,以X为横坐标,以P(X)为纵坐标作图,即可会出Poisson散布的图形。
值越小,散布越偏,随着
的增大,散布越趋于对称,当
=20时,散布接近正态散布,当
=50时,能够以为Poisson散布呈正态散布N(
,
)按正态散布处置。
5,Poisson散布具有可加性
6,整体参数的估量
由样本均数(样本计数)X估量整体均数
也有点(值)估量和区间估量,区间估量的方式,需视样本计数(样本均数)X的大小而定,X小时用查表法,X大时用正态近似法。
(一)查表法
当样本计数X
时,用X值查附表poisson散布
的可信区间,可得整体均数
的95%或99%可信区间。
(二)正态近似法
当样本计数X>50时,可用正态近似原理下面公式求整体均数
的95%或99%可信区间
正态散布、二项式和泊松散布的关系:
二项散布(binomialdistribution):
对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率散布。
Poisson散布是在π很小,样本含量n趋于无穷大时,二项散布的极限形式。
当v=∞时,t散布即为u散布,趋向正态散布。
可信区间与参考值范围的区别:
意义、计算公式和用途均不同。
(1)参考值范围是指同质整体内包括百分之几十个体值的估量范围。
而可信区间是指在百分之几十的可信度估量的整体参数的所在范围。
(2)一样的百分之几十,参考值范围是样本范围,可信区间是指可信度范围,二者有着本质的不同。
(3)从意义来看,95%参考值范围是指同质整体内包括95%个体值的估量范围,而整体均数95%可信区间是指按95%可信度估量的整体均数的所在范围。
(4)从计算公式看,假设指标服从正态散布,95%参考值范围的公式是:
±1.96s。
整体均数95%可信区间的公式是:
。
前者用标准差,后者用标准误。
前者用1.96,后者用α为0.05,自由度为v的t界值。
(5)从用途上看,可信区间用来估量整体均数,参考值范围用来判定观看对象的某项指标是不是正常。
简述查验假设与可信区间的联系与区别。
答:
(1)可信区间用于推断整体参数所在的范围,假设查验用于推断整体参数是不是不同。
前者估量整体参数的大小,后者推断整体参数有无质的不同。
(2)可信区间也可回答假设查验的问题。
但可信区间不能提供确切的P值范围,只能给出在α水准上有无统计意义。
(3)可信区间还可提示不同有无实际意义。
统计图表
1,绘制统计图的大体要求:
A,依照资料性质和分析目的据顶适当图形。
B,题目应说明资料的内容、时刻和地址,一样位于图的下方。
C,图的纵、横轴应注明标目及对应单位,尺度应等距或具有规律性,一样自左而右、自下而上、由小到大。
D,为使图形美观并便于比较,统计图的长宽比例一样为7:
5,有时为了说明问题也能够变更。
E,比较、说明不同的事物时,可用不同颜色或线条表示,并常附图例说明,但不宜过量。
2,经常使用统计图的适用条件与绘制
1.条图(bargraph)用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示它们之间的对照关系。
2.圆图(piegraph)圆形图适用于百分组成比资料,表示事物各组成部份所占的比重或组成。
3.百分条图(percentbar)意义及适用资料同圆图,也称组成条图。
4.线图(linegraph)线图适用于持续性资料,以不同的线段起落来表示资料的转变,并可说明一事物随另一食物(时刻)而变更的情形。
5.直方图(histogram)直方图用于表达持续性资料的频数散布。
6.散点图(scatterdiagram)散点图以直角坐标系中各点的密集程度和趋势来表示两现象间的关系。
经常使用在对资料进行相关分析之前适用。
单变量资料
一,数值变量
统计描述
1,频数表的编制求全距定组段和组距列频数表画频数图
2,频数散布的两个重要特点:
集中趋势和离散趋势
3,频数散布能够分为正态散布和偏态散布
4,频数表的用途:
揭露资料散布类型和散布特点,以便选取适当的统计方式;便于进一步计算指标和统计处置;便于发觉某些特大或特小的可疑值。
5,集中趋势的描述:
均数几何均数中位数百分位数
6,均数(mean):
算术均数的简称。
经常使用
=
=
表示。
7,中位数(median):
一组由小到大按顺序排列的观看值中位次居中的数值,用M表示。
可用于描述任何散布,专门是偏态散布资料和频数散布的一端或两头无确切数据资料的中心位置。
8,百分位数(percentile)是一种位置指标,用
表示。
一个百分位数P
将一组观看值分为两部份,理论上有x%的观看值比它小,有(100-x)%的观看值比它大。
可用于确信非正态散布资料的医学参考值范围。
9,离散趋势的描述:
全距(range)四分位数间距(quartile)方差标准差
10,全距(range)亦称极差,为一组同质观看值中最大值和最小值之差。
反映个体不同的范围,优势是计算简单,缺点是:
1)只考虑最大最小值之间的不同,不能反映组内其他观看值的变异度;2)样本含量相差差异时不宜用全距比较。
11,四分位数间距(quartile)上四分位数与下四分位数之差。
经常使用于描述偏态频数散布和散布的一端或两头无确切数值资料的离散程度。
12,方差(variance)离均差的平方和表示。
13,标准差(standardvariance)的作用:
a,估量变量值的离散程度b,计算变异系数c,与均数结合,估量变异值的频数散布范围d,计算标准误
(整体)s=
(样本)
14,变异系数(coefficientofvariation)经常使用于比较气宇单位不同或均数相差差异的两组或多组资料的变异度。
CV=
100%
假设查验
1,假设查验(hypothesistest)亦称显著性查验(significancetest),其大体思想是先对整体的参数或散布做出某种假设,如设整体均数(或率)为必然值;两整体均数(或率)相等;整体服从正态散布或两散布相一样,然后依照样本信息选用适当的方式,推断此假设应当拒绝或不拒绝。
2,假设查验的一样步骤:
(1)成立假设和确信查验水准:
依如实际情形确信单、双侧查验,成立假设,确信查验水准;
(2)选定查验方式和计算统计量:
依照设计的类型及研究目的选择适合的查验方式并计算出对应的统计量;
(3)确信P值并做出推断结论。
假设t≥tα,v,那么P≤α,按查验水准,拒绝H0,同意H1,尚能够为不同显著有统计学意义;相反那么不同不显著,无统计学意义
3,假设查验时应注意的事项:
(1)要有周密的抽样研究设计;样本必需是从同质整体中随机抽取的,要保证组间的均衡性和资料的可比性,可能阻碍结果的非处置因素在对照组间应尽可能相同或相近;
(2)正确选择查验方式;依照现有的资料类型、设计类型、分析目的、样本含量等因素选用适当的查验方式,如不符合条件可做适当转换;
(3)正确明白得“不同无显著性”的含义,不同有统计学意义,不能明白得为二者差差大,也不能明白得为所分析的指标在实际应用上就有“显著成效”。
(4)查验假设的推断结论为概率结论,不能绝对化:
查验水准人为规定,是相对的,报告结论时应列出查验统计量和P值的确切范围。
(5)注意是单侧查验仍是双侧查验
I型错误和II型错误:
I型错误(typeIerror)拒绝了事实上成立的
,即样本本来来自
的整体,由于抽样的偶然性取得了较大的t值,因此拒绝了
,同意了
,这种弃真错误称为第一类错误,犯第一类错误的概率是
。
II型错误(typeIIerror)是不拒绝事实上不成立的
,即“存伪”即样本本来来自
的整体,可是由于抽样的偶然性,取得了较小的t值,取得了较大的P值,没有拒绝
,这种存伪错误称为第二类错误,犯第二类错误的概率是1-
正态性查验:
用均数和标准差描述资料的散布特点,对例数n较小的样本进行t查验时,第一要求样本取自正态散布的整体。
两个方差的齐性查验:
两样本均数比较的t查验和多个样本均数比较的方差分析要求各样本所来自的整体方差相等。
两样本方差的齐性查验:
(4.12)
式中
为较大的样本方差,
为较小的样本方差,
为分子的自由度,
为分母的自由度,相应的样本例数别离为
和
。
当两整体方差齐同时,F值一样可不能离1太远;假设算得的F值较大,大于咱们规定的界值时,就以为两样本所在整体的方差不齐。
t查验
t查验:
经常使用于整体标准差未知且样本含量较小时样本均数与整体均数的比较,成组设计的两个小样本的均数的比较及配对设计的两样本均数的比较。
t查验的应用条件:
a,n≤50b,样本来自正态散布的整体c,两样本均数比较时要求两样本整体方差相等。
1,单样本t查验(onesamplet-test):
样本均数与已知整体均数比较,目的是推断样本所代表的未知整体均数
与已知整体均数
有无不同。
(
)(4.1)
式中
为样本均数,
为已知整体均数,s为样本标准差,n为样本含量,
为自由度。
步骤如下(可为u查验)
1)成立假设,确信查验水准。
H0:
μ=μ0H1:
μ≠μ0
α=0.05
2)计算统计量。
已知,(整体均数)μ0=,n=,
=,s=
3)确信P值,做出推断结论。
按v=n-1,查t界值表,得P>0.05(或P<0.05),按α查验水准,不拒绝H0(或拒绝H0,同意H1),即依照本资料尚不能(能够)以为?
与?
有不同。
2,配对设计资料的t查验分为3种情形:
①将受试对象按必然条件配成对子(同种属、同体重、同年龄、同性别等),再随机分派每对中的2个受试对象到不同的处置组;②同一受试对象别离同意2种不同处置,其目的是推断2种处置的成效有无不同;③同一受试对象处置前后的比较,其目的是推断某种处置有无作用。
配对设计资料的t查验(pairedt-testfordependentsamples)的大体思路:
第一计算出各对差值d的均数
,当2种处
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 总结