SAS报告.docx
- 文档编号:11663821
- 上传时间:2023-03-29
- 格式:DOCX
- 页数:23
- 大小:1.78MB
SAS报告.docx
《SAS报告.docx》由会员分享,可在线阅读,更多相关《SAS报告.docx(23页珍藏版)》请在冰豆网上搜索。
SAS报告
本科课程设计论文
统计软件课程设计
设计题目:
基于SAS人口预期寿命影响因素分析
班级:
统计1105
*****
******
2014年6月14日
摘要:
人均预期寿命是衡量一个社会的经济发展水平及医疗卫生服务水平的指标,与性别地区有着密切的联系。
为了清楚地反应全国各个地区的人口平均预期寿命,为了国家领导人做出经济决策,为了为国家医疗卫生建设提供可靠依据,有关人员根据人口普查数据计算了各地区的人均预期寿命。
现收集了全国31个地区的人均预期寿命,运用SAS分析的方法,对选取的数据进行分析,比较不同地区人均预期寿命的差异,并研究地区等因素对其影响。
结果分析表明像上海、浙江、广东这样的发展地区以及海南,云南这样生活环境优美的水乡之地人均预期寿命就要比贵州等偏远地区的长。
关键词:
人口平均预期寿命地区地理位置
前言
人口平均预期寿命(Lifeexpectancy)是指假若当前的分年龄死亡率保持不变,同一时期出生的人预期能继续生存的平均年数。
它以当前分年龄死亡率为基础计算,但实际上,死亡率是不断变化的,因此,平均预期寿命是一个假定的指标。
这个指标与性别、年龄、种族有着紧密的联系,因此常常需要分别计算。
平均预期寿命是我们最常用的预期寿命指标,它表明了新出生人口平均预期可存活的年数,是度量人口健康状况的一个重要的指标。
寿命的长短受两方面的制约。
一方面,社会经济条件、卫生医疗水平限制着人们的寿命,所以不同的社会,不同的时期,寿命的长短有着很大的差别;另一方面,由于体质、遗传因素、生活条件等个人差异,也使每个人的寿命长短相差悬殊。
因此,虽然难以预测具体某个人的寿命有多长,但可以通过科学的方法计算并告知在一定的死亡水平下,预期每个人出生时平均可存活的年数。
这就是人口平均预期寿命。
它是运用科学的计算方法计算出来的。
在过去的10年里,虽然各省的人均预期寿命都显著提高,但各省之间仍存在一定的差别。
人体健康的决定性因素主要包括:
医药、卫生、教育、常识和理性行为、经济状况和收入水平、环境因素。
为了对中国各省人均寿命的影响因素进行研究,分别从经济、医疗、自然地理位置、环境质量方面选取了3个因素的数据进行研究分析,得出了一些可靠地结论。
一、研究背景:
据一些专家估计,50年代初,我国人口的预期寿命在48岁左右。
新中国成立以来,中国在加速工业化和现代化进程中,迅速完成了第一次卫生革命,即基本上控制并消除严重的传染病和寄生虫病。
改革开放以来,中国有效地控制和防治各类传染病,其发病率和病死率降至历史低点,人民的卫生健康环境有了更加明显的改善,人口预期寿命提高迅速。
据计算,我国人口男性预期寿命在1982—1983年为63.49岁,女性为66.77岁,1990年为66.35岁,女性为69.43岁,1999—2000年男性为68.82岁,女性为71.95岁,说明,随着我国社会经济的健康快速发展,人民生活水平和生活质量不断得到提高,与此同时医疗卫生事业也不断取得新的进展,从而有效地降低了死亡率,保障了健康水平的提高【1】。
第五次全国人口普查显示,2000年中国人口平均预期寿命已达71.4岁,10年间,提高了2.85岁。
中国人口的平均预期寿命比世界平均水平高5岁,比发展中国家和地区高7岁【2】。
从地区来看,东部11个省、直辖市的人口平均预期寿命均接近或超过73岁,普遍高于中部和西部地区;西部12个省的人口平均预期寿命较低,除广西、重庆、四川、陕西和宁夏外都低于70岁;中部地区8个省的人口平均预期寿命基本在70~73岁。
20世纪90年代以后,许多学者利用一国跨地区截面资料研究了收入不平等和地区之间的健康差异的关系,其结论并不完全一致。
大部分学者认为收入不平等对人口健康状况产生了负面影响,较高的收入不平等与较高的婴儿死亡率、较高的低出生体重率以及较低的预期寿命联系在一起。
如(Kap.1an,1996;KennedyandKawachi,1996;Wilkinson,KawachiandKennedy,1998;lynch,1998等)。
他们认为收入不平等可能反映了社会凝聚力(socialcohesion)或者社会资本的恶化,而个人的健康状况不仅仅对于绝对收入水平的升降有反映,对于一些相对性的概念,诸如相对剥夺、相对收入或者相对社会地位的变动也会有所反映。
马磊,余振华在《中国平均预期寿命的影响因素分析》中指出影响人类预期寿命的因素主要有遗传和体质因素,生活水平,医疗卫生服务水平,人口受教育水平四大方面。
为了更准确地说明各因素对预期寿命的影响,他们将人均GDP(取自然对数)、婴儿死亡率和文盲率看成原因变量,人均预期寿命当做结果变量,试图建立多元线性回归模型。
通过模型结果,他们得出,经济发展水平,医疗卫生服务水平,教育水平,都对对预期寿命的显著作用。
他们根据模型的定量分析给出了一些政策建议。
强调经济增长,同时还要努力提高教育和医疗卫生服务水平。
乔轶娟在《我国人均寿命影响因素计量分析》中指出影响人均寿命的因素有以下几个方面:
一是从经济状况来看,人均GDP、年人均消费性支出。
二是医疗卫生方面,选取人均拥有的卫生机构数、财政上用于卫生经费的年人均额。
三是教育水平因素,选取每百人中有高中及高中以上教育水平的人数作为指标。
四是人口内部的影响因素,考虑到各地普遍存在女性平均预期寿命大于男性,将男女性别比作为一项指标(以女性人数为基数);另将出生率作为一项指标是考虑到越是偏远山区和少数民族地区出生率可能越高,寿命反而可能越低。
五是自然环境因素,将各省市自治区划分为东部、西部,以东、西之分作为影响因素。
六是其他影响因素,选取城镇人口比重,平均每个家庭户的人口数。
搜集数据,进行相关性分析,建立人均预期寿命模型。
得出结论,影响人均寿命的不只是一两个变量,而是一系列变量。
文章所选取的10个指标从相关性判断,都影响人均预期寿命,但由于解释变量之间的相关性,采用所有的因素会影响判断,因此在建立模型中只能就重避轻,将一些影响不太显著的变量剔除,留下影响最显著的两个变量:
人均GDP和出生率。
所以,提高我国人均期望寿命的方法就是对影响寿命的因素施加影响,使人均寿命变量正向变化。
二、模型设定
研究中国人均预期寿命的影响因素需要考虑以下几个方面:
(一)数据性质的选择
由于时间序列数据在反映人均预期寿命上不显著,相比而言,各地区的截面数据更具有代表性和显著性,所以,本文选择了全国31个省市(除港澳台地区)的截面数据为分析对象。
(二)影响因素的分析
根据实践经验,有众多因素会影响人均预期寿命。
1、经济因素
GDP指标是一个国家或地区经济发展状况的重要标志,也是影响一个国家或地区人口预期寿命的基础因素。
随着经济的发展,人均GDP呈现明显增长趋势,随着人们收入水平的提高,人们对食物等方面的支出会随之增加,这自然对提高预期寿命有重要作用。
同时,随着人均GDP的增加,人们生活水平提高,会减少对质量差的低档食物的需求,会增加对质量合格的优质食品的消费,这对改善人们的健康状况、提高预期寿命有很大影响。
2、医疗卫生服务水平
医疗卫生事业的发展能够改善人口的健康状况,使人民免遭疾病的侵袭。
自二战以来,人口平均预期寿命迅速提高的重要原因之一就是一些国家进口了廉价而先进的医疗技术及药品。
解放后,中国卫生事业迅速发展,成功地消灭或基本消灭了一些解放前严重威胁人民身体健康的烈性传染病,如霍乱、鼠疫、天花等,使全国人民的健康状况越来越好,特别是在广大农村,医疗卫生服务的进步有效地提高了农村人口预期寿命。
因此,本文将“人均GDP”、“卫生机构数”、“单位面积污染比”三个因素作为模型的解释变量。
三、资料的收集
本文获取了31个省市的资料,如下表:
变数
地区
人口预期寿命(岁)
Y
人均GDP
(万元)
X1
卫生机构数(个)
X2
单位面积污染比
X3
北京
76.1
70234
9734
18440
天津
4.91
63395
4238
14822.0339
河北
72.54
24583
80963
4978.78788
山西
71.65
20779
39917
4070.55215
内蒙古
69.87
37287
22677
387.642276
辽宁
73.34
34193
34729
6205.26316
吉林
73.1
25906
18543
1580.51282
黑龙江
72.37
21593
21825
884.662577
上海
78.14
77205
4460
89086.6873
江苏
73.91
43907
30571
8484.11215
浙江
74.7
44895
29549
6140.56604
安徽
71.85
16656
24799
2720.68966
福建
72.55
33106
26613
2262.4
江西
68.95
15921
34005
1275.86207
山东
73.92
35893
63885
7659.74843
河南
71.54
21073
75722
4273.56322
湖北
71.08
22050
32790
2909.74359
湖南
70.66
19355
55200
1629.68037
广东
73.27
39978
44314
4291.75258
广西
71.29
16576
32355
1872.76423
海南
72.92
18760
4661
1225.9887
重庆
71.73
20219
16497
2234.19204
四川
71.2
17289
72914
940.748031
贵州
65.96
9214
24707
2193.22034
云南
65.49
13687
22365
668.856448
西藏
64.37
15294
4959
1.18110236
陕西
70.07
20497
33928
1111.68224
甘肃
67.47
12882
25299
597.014925
青海
66.03
18346
5959
80.9333333
宁夏
70.17
19642
4149
2088.15029
新疆
67.41
19119
14244
116.407186
数据源:
(1)《中国统计年鉴》2009年
(2)国家统计局网站
四、资料分析:
(一)描述统计量
datab;
inputdistrict$yx1-x3;
cards;
北京76.170234973418440
天津4.9163395423814822.0339
河北72.5424583809634978.78788
山西71.6520779399174070.55215
内蒙古69.873728722677387.642276
辽宁73.3434193347296205.26316
吉林73.125906185431580.51282
黑龙江72.372159321825884.662577
上海78.1477205446089086.6873
江苏73.9143907305718484.11215
浙江74.744895295496140.56604
安徽71.8516656247992720.68966
福建72.5533106266132262.4
江西68.9515921340051275.86207
山东73.9235893638857659.74843
河南71.5421073757224273.56322
湖北71.0822050327902909.74359
湖南70.6619355552001629.68037
广东73.2739978443144291.75258
广西71.2916576323551872.76423
海南72.921876046611225.9887
重庆71.7320219164972234.19204
四川71.21728972914940.748031
贵州65.969214247072193.22034
云南65.491368722365668.856448
西藏64.371529449591.18110236
陕西70.0720497339281111.68224
甘肃67.471288225299597.014925
青海66.0318346595980.9333333
宁夏70.171964241492088.15029
新疆67.411911914244116.407186
;
procmeansdata=bmaxdec=2
meanstdmaxminrangecvskewness;/*利用MEANS过程计算描述统计量*/
varyx1-x3;
run;
图1
由图1可知,各人均预期寿命的样本均值为68.99,样本标准偏差为12.29,样本中人均预期寿命的最大值为78.14,最小值为4.91,斜度为-5.01。
(二)绘制散点图
procgplotdata=b;/*对数据集b绘制散点图*/
ploty*x1;/*纵坐标为y,横坐标为x1绘图*/
ploty*x2;/*纵坐标为y,横坐标为x2绘图*/
ploty*x3;/*纵坐标为y,横坐标为x3绘图*/
symbolcolor=redi=jionv=starci=blue;/*绘图的颜色为红色,连直线,点符号为*,联机的颜色为蓝色*/
run;
图2
由图2可知,x1与y的线性关系,随x1的增加,y也在增加,所以认为呈正相关关系。
图3
由图3可知,x2与y的线性关系不太明显,随x2的增加,y趋于平稳。
图4
由图4可知,x3与y的线性关系,随x3的增加,y也在增加,所以认为呈
正相关关系。
(三)回归分析
1、逐步回归法
逐步回归的基本思想是:
首先在待选的M个变量中选择一个对因变量影响最大的自变量,这可以通过因变量与每一自变量进行回归得到的F值来判断。
若最大的F值在给定的显著性水平下是显著的,则该变量被选中,否则选元结束。
procregdata=b;/*利用REG过程进行回归分析*/
modely=x1-x3/selection=stepwisesls=0.05sle=0.2r;/*采用逐步筛选法建立回归模型*/
run;
图5
由图5可知,变量X2被加入到模型中,说明三个自变量分别关于Y回归,其中由X2与Y回归得到的F统计量值最大,为1.96,对应的概率为0.1725,在0.05的显著性水平下没有通过检验。
2、残差图
procregdata=b;/*利用REG过程进行回归分析*/
modely=x1x2x3;/*以y为因变量,以x1、x2和x3为自变量建立回归模型*/
plotstudent.*p.='*';/*以标准化的残差值为纵轴,因变量的预测值为横轴绘图*/
run;
图6
(四)多重共线性
1、多重共线性
指在多元回归分析中自变量之间存在线性关系,用数学术语来表达就是系数矩阵的秩
)
procregdata=b;/*对模型进行回归分析过程,并要求计算变量之间的相关系数*/
modely=x1-x3/collinvif;/*vif要求计算方差膨胀因子,而collin和collinoint则要求进行多重共线诊断*
run;
图7
图8
由图(图7)的方差膨胀因子(vaianceinflation)和最下面的共线性诊断(图8)(因为截据项检验显著)可知,在变数X1上的方差比率为0.85753,远超过50%,说明它与Y高度相关。
2、多重比较
是利用全部观测数据,实现对各个水平下观测变量总体均值的逐对比较,得出哪个因素的影响最大。
procglm;
classdistrict;/*指出因素变量为district*/
modely=district;/*以y为指针变量,district为因素变量建立方差分析模型*/
meansdistrict/thovtest;/*计算指针变量在因素变量各水平下的均值*/,/*多重比较*/
run;
图9
由图9可知,多重比较结果是:
上海的人均预期寿命最大是78.14,天津的人均预期寿命最小是4.91。
在不同的地区人均预期寿命也是不相同的。
目前经济水平高的人的寿命高于经济水平低的,还有一些发达地区污染比较严重,导致人均预期寿命较低。
(五)对选择的因素与各省人均预期寿命进行相关性分析
以上是选取有可能影响各省人均预期寿命的3因素。
下面通过因素与各省人均寿命(用人均预期寿命表示人均寿命)之间的相关分析来分析哪些因素在各地人均寿命差异的现象中起了重要作用。
1、简单相关系数的计算
对两个要素之间的密切程度,通过要素之间的相关系数来测定。
具体公式如下:
;
(1)
其中,
为人口寿命(
)与第j因素(
)的相关系数,它表示人口寿命和因素
的相关程度,其值介于[-1,1]区间;
表示正相关,反之,则表示负相关;X表示人均寿命样本组的平均值,而
表示第j因素样本组的平均值,即
(2)
(3)
各省人均寿命与各因素的简单相关分析
proccorrdata=b;/*利用CORR过程计算变量之间的相关系数*/
varyx1-x3;
run;
图10
由图10可知,Y,X1,X2,X3,它们分别的样本量N,样本均值,样本标准偏差,样本总和,样本最小值,样本最大值。
图11
由图11可知,与人口寿命高程度相关的因素有3个,其中X2卫生机构数与人口寿命的相关程度较高,其相关系数为0.25137,主要原因在于医疗机构数反应了各省医疗水平。
医疗水平高的地区寂静发达,居民消费水平高,因此使该地区的人口预期寿命较高,河北、河南就赋予这类情况。
(六)各省人均寿命与各因素的系统聚类分析
1、系统聚类法:
开始将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。
Ward法:
类中和样品到类中心(均值)的平方欧氏距离之和。
procclusterdata=bmethod=warstdnotiepseudo;/*利用CLUSTER过程进行系统聚类,聚类方法为Ward最小方差法*/
iddistrict;
run;
图12
由图12可知:
(1)RSQ为R方统计量,R方总是随着分类个数的增多而变大,所以当第一步结束时R方最大接近于1,R方越大说明类内离差平方和越小,聚类效果也越好。
然而当某一步R方突然明显下降时,说明聚类效果不佳,应当谨慎考虑上一步的分类。
根据所得结果,我们看到在NCL(剩余类数)=5、4、3、2时,R方下降剧烈,所以应当认真考虑分为5、4、3、2类的可能。
(2)SPRSQ为半偏R方统计量,它是衡量合并类前后的类内离差平方和的变化,半偏R方越大说明这一步聚类效果越不好。
观察上表,当NCL=6、5、4、3、2时都比较大,在NCL>=之后已经超过0.7,所以应当尤其认真考虑分为5、4、3、2类的可能。
(3)PSF为伪F统计量,是模拟与方差分析中的F统计量,它衡量了k个分类时的聚集效果,F越大说明分类效果越好。
因此NCL越大F一般是越大的,纵观所有的F统计量,并没有F统计量随着类个数减少反而增多的反常情况,但是在NCL=7时,其与其上的相邻F统计量差有16.2;NCL=5时,与NCL=4的相邻F统计量差有17.4,相比其他的相邻F统计量差值明显较大,应当引起注意,故应当考虑分类为4或5类的可能。
(4)PST2为伪t方统计量,模拟方差分析中的t方统计量,用来衡量合并两个类的效果,如果t方较大,则说明合并两个类的效果不好,应该取合并前的那个分类。
观察商标,发现当NCL=4时t方最大,NCL=3时次大,NCL=5时第三大,其他的在NCL=6、9、时也比较大,故应当考虑分类为2、3、5类的可能。
综合上述四个统计量的分析,我们暂时认为,分为5类可能是最佳选择。
2、谱系图:
proctreehorizontal;/*利用TREE过程,绘制横向聚类谱系图*/
iddistrict;
run;
图13
由图13可知:
结合由Cluster输出的聚类统计量分析,我们最终认为分成4类较为合适,最终分类结果如下:
第一类:
天津
第二类:
上海
第三类:
河北、河南、山东、四川、湖南、
第四类:
北京、内蒙、福建、辽宁、广东、江苏、浙江、山西、吉林、黑龙江、宁夏、青海、甘肃、新疆安徽、江西、云南、重庆、西藏、贵州、海南、广西、湖北
从聚类结果来看,类的划分还是体现出了一些地域的特征的。
天津、上海分别单独为一类,处于东部发达地区,但医疗机构数太少。
第三类为河北、河南、山东、四川、湖南,处于经济较发达地区,医疗机构数相对较多。
第四类宁夏、内蒙等地经济较落后,医疗机构数相对较少。
3、正态性检验
所谓正态性检验是指检验各个水平下的总体是独立地服从于正态分布的,即对每一个水平观测资料是正态分布的随机样本。
通过SAS分析的结果如下:
datasample;/*建立数据集sample,以进行两样本的比较*/
setb;/*读入数据集b*/
ifdistrictin('内蒙古''广西''重庆''四川''贵州''云南'
'西藏''陕西''甘肃''青海''宁夏''新疆')
thenregion='西部';
elseregion='东部';/*通过IF语句定义变量region,用来区分东部和西部地区*/
run;
procunivariatedata=samplenormal;/*利用UNIVARIATE过程进行正态性检验*/
vary;/*指出要检验的变量是y*/
classregion;/*指出分类变量为region,用来区分两个样本*/
run;
图14
由图14可知,西部地区检验统计量的概率P值大于显著性水平0.05,说明接受原假设,即服从正态分布。
由上检验结果可以看出都通过了显著性检验,即满足方差分析的假设条件。
图15
由图15可知,东部地区检验统计量的概率P值小于显著性水平0.05,说明拒绝原假设,即不服从正态分布。
(七)各省人均寿命与各因素的主成分分析
procprincompdata=bout=prin;/*对数据集b进行主成分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 报告