SAS实验报告模板.docx
- 文档编号:6121976
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:15
- 大小:28.76KB
SAS实验报告模板.docx
《SAS实验报告模板.docx》由会员分享,可在线阅读,更多相关《SAS实验报告模板.docx(15页珍藏版)》请在冰豆网上搜索。
SAS实验报告模板
2009年广东省各市经济统计分析
——《数据分析与统计软件》实验报告
伍思敏(进修)1102020
1、问题背景与数据描述
自广东省委省政府提出建设“幸福广东”之后,如何加快全省经济的升级转型,如何促进全省各市的城乡区域协调发展,以及如何统筹全省经济社会协调发展成为全社会关注的热点。
首先,我们必须了解全省21个地级市的基本经济情况,找出现行经济的不足,才能做出科学的决策。
我们通过分析各市的社会经济的8项统计指标,来研究各市的经济运行情况。
根据《广东年鉴2010》的资料,给出有关的数据,见表1。
表12009年广东省各市社会经济统计数据
地区
生产总值/亿元
人均生产总值/元
农林牧渔业总产值/亿元
工业总产值/亿元
全社会固定资产投资/亿元
出口总额/亿美元
社会消费品零售总额/亿元
城镇单位在岗职工平均工资/元
广州
9138.21
89082
295.62
11376.76
2659.85
374.05
3615.77
49519
深圳
8201.32
92772
15.48
15416.24
1709.15
1619.79
2567.94
46723
珠海
1038.66
69889
51.62
2405.04
410.51
177.83
404.46
31764
汕头
1035.87
20385
104.71
1531.10
291.90
40.16
661.96
25389
佛山
4820.90
80686
195.03
11711.28
1470.56
245.78
1408.78
34106
韶关
578.75
19549
133.42
599.23
356.50
5.79
278.36
28276
河源
405.50
13928
86.86
604.68
198.15
14.13
139.50
23803
梅州
519.29
12558
179.38
351.11
162.98
6.71
267.98
24097
惠州
1414.70
35819
147.91
3005.14
758.97
171.49
491.10
25786
汕尾
390.04
13363
111.22
319.60
289.43
9.48
282.06
23238
东莞
3763.91
56601
25.31
6071.11
1094.08
551.67
959.07
42585
中山
1566.41
62304
77.77
4057.97
545.61
177.36
549.76
36165
江门
1340.88
32139
193.09
2933.26
492.07
79.49
562.07
24304
阳江
527.27
22132
200.16
504.56
239.49
12.30
305.38
21439
湛江
1156.67
16647
397.68
1028.79
393.23
13.65
559.94
23944
茂名
1231.25
19979
385.38
1098.13
180.01
5.32
591.05
24255
肇庆
862.00
22415
256.81
1179.01
462.77
20.30
275.78
26174
清远
861.59
22796
158.71
2024.06
841.24
14.15
303.56
28379
潮州
480.18
18681
61.35
581.07
162.98
18.70
207.89
21293
揭阳
816.09
14159
149.61
1153.29
393.50
25.25
341.46
19881
云浮
344.51
14276
144.91
324.32
240.19
6.16
117.91
21913
2、统计分析方法与SAS实现
为了研究各市的经济情况,我们利用基本的描述性统计、因子分析、聚类分析等方法来进行多角度的分析,并用SAS完成统计分析任务。
2.1数据准备和处理
为便于分析和说明,在下面的中文和程序中,我们将使用以下变量来表示各经济指标,如表2所示:
表2变量符号
地区
生产总值/亿元
人均生产总值/元
农林牧渔业总产值/亿元
工业总产值/亿元
全社会固定资产投资/亿元
出口总额/亿美元
社会消费品零售总额/亿元
城镇单位在岗职工平均工资/元
region
x1
x2
x3
x4
x5
x6
x7
x8
datacity;
inputregion$x1-x8;
cards;
guangzhou9138.2189082295.6211376.762659.85374.053615.7749519
shengzhen8201.329277215.4815416.241709.151619.792567.9446723
zhuhai1038.666988951.622405.04410.51177.83404.4631764
shantou1035.8720385104.711531.10291.9040.16661.9625389
foshan4820.9080686195.0311711.281470.56245.781408.7834106
shaoguan578.7519549133.42599.23356.505.79278.3628276
heyuan405.501392886.86604.68198.1514.13139.5023803
meizhou519.2912558179.38351.11162.986.71267.9824097
huizhou1414.7035819147.913005.14758.97171.49491.1025786
shanwei390.0413363111.22319.60289.439.48282.0623238
dongguan3763.915660125.316071.111094.08551.67959.0742585
zhongshan1566.416230477.774057.97545.61177.36549.7636165
jiangmen1340.8832139193.092933.26492.0779.49562.0724304
yangjiang527.2722132200.16504.56239.4912.30305.3821439
zhanjiang1156.6716647397.681028.79393.2313.65559.9423944
maoming1231.2519979385.381098.13180.015.32591.0524255
zhaoqing862.0022415256.811179.01462.7720.30275.7826174
qingyuan861.5922796158.712024.06841.2414.15303.5628379
chaozhou480.181868161.35581.07162.9818.70207.8921293
jieyang816.0914159149.611153.29393.5025.25341.4619881
yunfu344.5114276144.91324.32240.196.16117.9121913
;
run;
2.2描述性统计分析
为了对数据的基本情况有一个初步的了解,我们首先进行单变量分析。
利用MEANS过程计算各个变量的描述性统计量,程序如下:
procmeansdata=citymaxdec=2meanstdmaxmincvskew;
varx1-x8;
run;
MEANS过程计算每个变量的均值、标准差、最大最小值、极差、变异系数和偏度。
maxdec=2表示输出统计结果保留2位小数,结果如表3所示。
表3MEANS过程
Variable
Mean
StdDev
Maximum
Minimum
Range
CoeffofVariation
Skewness
x1
1928.29
2500.51
9138.21
344.51
8793.70
129.68
2.20
x2
35721.90
27212.70
92772.00
12558.00
80214.00
76.18
1.13
x3
160.57
104.55
397.68
15.48
382.20
65.11
0.92
x4
3251.23
4313.25
15416.24
319.60
15096.64
132.67
1.91
x5
635.87
629.14
2659.85
162.98
2496.87
98.94
2.12
x6
170.93
361.77
1619.79
5.32
1614.47
211.65
3.57
x7
709.13
860.81
3615.77
117.91
3497.86
121.39
2.62
x8
28715.86
8484.20
49519.00
19881.00
29638.00
29.55
1.41
根据表3的结果,可以得出以下结论:
(1)除了x8(城镇单位在岗职工平均工资)的CV(变异系数)不是很大外,其他各个变量的CV都在50以上,其中x1(生产总值)、x4(工业总产值)、x6(出口总额)、x7(社会消费品零售总额)的CV都在100以上,这说明全省21个地级市在以上几个方面存在很大的差异,从极差可以具体看大各市间的差别,各市的发展很不平衡。
(2)x8(城镇单位在岗职工平均工资)的CV(变异系数)为29.55,是所有变量中变异系数最小的,说明虽然职工的工资跟城市的发展水平有关,但其增长的幅度与城市经济发展是不相应的,城市发展了,职工并没有享受到更多的发展成果。
进一步可以考虑8个变量之间的相关系数,程序如下:
proccorrdata=city;
varx1-x8;
run;
CORR过程给出变量两两之间的相关系数和显著概率(p值),如表4所示:
从表4可看出很多变量之间的相关系数都在0.7以上,且显著性检验的p值都很小,这表明各变量间存在较强的相关性,它们反映的信息有所重叠,因此考虑降低维数,用较少的变量来考虑各市的经济情况。
表4PearsonCorrelationCoefficients,N=21Prob>|r|underH0:
Rho=0
x1
x2
x3
x4
x5
x6
x7
x8
x1
1.00
0.85538
<.0001
-0.00721
0.9752
0.94793
<.0001
0.95323
<.0001
0.77392
<.0001
0.97853
<.0001
0.89577
<.0001
x2
1.00000
-0.21812
0.3422
0.90767
<.0001
0.82766
<.0001
0.72178
0.0002
0.79809
<.0001
0.89720
<.0001
x3
1.00000
-0.14073
0.5429
0.03077
0.8946
-0.37474
0.0942
0.09488
0.6825
-0.19909
0.3869
x4
1.00000
0.89387
<.0001
0.82924
<.0001
0.87906
<.0001
0.86331
<.0001
x5
1.00000
0.62617
0.0024
0.94154
<.0001
0.87574
<.0001
x6
1.00000
0.67634
0.0008
0.74948
<.0001
x7
1.00000
0.85083
<.0001
x8
1.00000
2.3因子分析
采用因子分析的方法来实现对数据的降维处理,将8个经济指标综合为几个综合因子来进行研究。
程序如下:
procfactordata=city;
varx1-x8;
run;
FACTOR过程计算得到数据相关矩阵的特征值、方差贡献率和累计方差贡献率如表5所示:
表5相关矩阵的特征值、方差贡献率
EigenvaluesoftheCorrelationMatrix:
Total=8Average=1
Eigenvalue
Difference
Proportion
Cumulative
1
6.
4.
0.7628
0.7628
2
1.
0.
0.1506
0.9134
3
0.
0.
0.0387
0.9521
4
0.
0.05678755
0.0226
0.9747
5
0.
0.06965556
0.0155
0.9902
6
0.05440371
0.03331218
0.0068
0.9970
7
0.02109153
0.01822783
0.0026
0.9996
8
0.00286370
0.0004
1.0000
从中可看出,相关矩阵的前两个特征值分别为6.和1.,对应两个公共因子的累计方差贡献率已达0.9134,因此2个公共因子所代表的信息已经能够很充分反映原变量。
下面指定2个公共因子来进行因子分析。
procfactordata=cityn=2;
varx1-x8;run;
利用主成分法,FACTOR过程计算了两因子模型的因子载荷矩阵,以及对每个变量的共同度,如表6和表7所示:
表6因子载荷矩阵
FactorPattern
Factor1
Factor2
x1
0.98072
0.14549
x2
0.92406
-0.09964
x3
-0.14193
0.96569
x4
0.96972
-0.01969
x5
0.93797
0.21731
x6
0.82517
-0.34588
x7
0.93664
0.26360
x8
0.94260
-0.06342
表7公共因子解释的方差和变量的共同度
VarianceExplainedbyEachFactor
Factor1
Factor2
6.1026656
1.2044074
FinalCommunalityEstimates:
Total=7.307073
x1
x2
x3
x4
x5
x6
x7
x8
0.982973
0.863810
0.952705
0.940749
0.927011
0.800534
0.946775
0.892515
表7指出两个公共因子所解释的方差分别为6.1026656和1.2044074,而且每个变量的共同度都在0.8以上,表明该因子模型对原来每个变量的解释能力都较强,可以较好地代表原变量。
但表6因子载荷矩阵中,第一个公共因子Factor1在x3以外的变量上的因子载荷基本都在0.9附近,而第二个公共因子Factor2在x3以外的变量上的因子载荷都小于0.4,且出现较多负值。
这样难对公共因子做出合理的解释,因此接下来对因子载荷矩阵进行旋转,并计算因子得分。
procfactordata=cityn=2rotate=varimaxscoreout=scoreout;
varx1-x8;
run;
表8旋转后因子载荷矩阵
RotatedFactorPattern
Factor1
Factor2
x1
0.99143
0.00672
x2
0.90100
-0.22806
x3
-0.00530
0.97605
x4
0.95741
-0.15529
x5
0.95916
0.08381
x6
0.76860
-0.45803
x7
0.96432
0.12984
x8
0.92443
-0.19480
从表8可以看出,此时两个公共因子的意义已经比较明显:
第一公共因子Factor1在x1(生产总值)、x2(人均生产总值)、x4(工业总产值)、x5(全社会固定资产投资)、x6(出口总额)、x7(社会消费品零售总额)、x8(城镇单位在岗职工平均工资)上都有大于0.75的正载荷,可以解释为综合生产力;第二公共因子Factor2在x3(农林牧渔业总产值)上的载荷为0.97605,可以解释为农业生产力。
利用因子模型,可以计算出每个地区在这两个公共因子上的得分,得分数据包含在scoreout中。
下面利用SORT过程对数据集scoreout按照公共因子进行排序:
procsortdata=scoreoutout=f1;
bydescendingfactor1;
procsortdata=scoreoutout=f2;
bydescendingfactor2;
run;
根据输出数据集f1和f2的结果,我们得到按照综合生产力和农业生产力输出的排序,如下表9所示。
表9各市按照公共因子得分排序
序号
地区
Factor1
序号
地区
Factor2
1
广州
2.783234
1
湛江
1.948944
2
深圳
2.42619
2
广州
1.848593
3
佛山
1.261464
3
茂名
1.802894
4
东莞
0.740045
4
肇庆
0.76815
5
中山
0.138167
5
佛山
0.386806
6
珠海
-0.08648
6
阳江
0.329112
7
惠州
-0.11697
7
江门
0.287293
8
江门
-0.21436
8
梅州
0.161989
9
湛江
-0.25143
9
清远
0.097965
10
清远
-0.26099
10
揭阳
0.028657
11
茂名
-0.28761
11
惠州
-0.10837
12
肇庆
-0.35841
12
云浮
-0.1092
13
汕头
-0.44828
13
韶关
-0.19972
14
韶关
-0.51622
14
汕尾
-0.32559
15
阳江
-0.59603
15
汕头
-0.3452
16
揭阳
-0.60835
16
河源
-0.57935
17
梅州
-0.65387
17
潮州
-0.76404
18
汕尾
-0.69357
18
中山
-0.88217
19
云浮
-0.73551
19
珠海
-1.14489
20
河源
-0.74525
20
东莞
-1.33298
21
潮州
-0.77575
21
深圳
-1.86889
从表9可以得出以下结论:
(1)广州、深圳和佛山在Factor1上的得分位居前三位,说明这三个市的综合生产力很强,云浮、河源和潮州在Factor1上的得分排在最后三位,说明三市的综合生产力很差,工业很落后。
(2)湛江、广州和茂名在Factor2上的得分位居前三位,说明这三个市的农业生产力很强。
湛江和茂名都是全省面积、人口大市,从事农业生产的基础较强,而广州农业生产力强主要是由于有较强的农业的深加工能力。
珠海、东莞和深圳在Factor2上的得分排在最后三位,说明这三市的农业生产力很差,这与这三个城市的历史有密切关系,珠海和深圳作为经济特区,从设立其就决定了其工业城市的地位,农业不是其发展方向;东莞则由于地理位置和政府管理体系的关系,一直以发展工业为主,大量的土地用于建设厂房和工业园区,农业发展受到很大的限制。
2.4聚类分析
在得到各市的因子得分后,我们希望对各市依据生产能力进行分类。
首先,我们按照两个公共因子的得分,通过CLUSTER过程进行聚类分析,并用TREE过程绘制聚类谱系图,程序如下:
procclusterdata=scoreoutmethod=wardouttree=otstandardpseudoccc;
varfactor1factor2;
idregion;
proctreedata=othorizontal;
run;
表10聚类过程
NCL
ClustersJoined
FREQ
SPRSQ
RSQ
ERSQ
CCC
PSF
PST2
Tie
20
meizhou
jieyang
2
0.0002
1.00
.
.
212
.
19
zhanjian
maoming
2
0.0003
.999
.
.
209
.
18
shantou
shaoguan
2
0.0003
.999
.
.
207
.
17
heyuan
chaozhou
2
0.0004
.999
.
.
193
.
16
jiangmen
qingyuan
2
0.0005
.998
.
.
188
.
15
shanwei
yunfu
2
0.0006
.998
.
.
180
.
14
CL20
yangjian
3
0.0009
.997
.
.
162
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 实验 报告 模板
![提示](https://static.bdocx.com/images/bang_tan.gif)