全国地区经济发展水平的聚类和实例判别分析.docx
- 文档编号:11728683
- 上传时间:2023-03-31
- 格式:DOCX
- 页数:21
- 大小:203.46KB
全国地区经济发展水平的聚类和实例判别分析.docx
《全国地区经济发展水平的聚类和实例判别分析.docx》由会员分享,可在线阅读,更多相关《全国地区经济发展水平的聚类和实例判别分析.docx(21页珍藏版)》请在冰豆网上搜索。
全国地区经济发展水平的聚类和实例判别分析
全国地区经济发展水平的聚类和实例判别分析
摘要:
针对我国各省(直辖)市的2009年度经济数据,选取9个经济指标进行系统聚类分析,得到我国3类不同的地区经济类型;利用实例进行判别分析,结合实际情况分析结果。
聚类结果为制订有针对性的地区经济发展战略提供依据。
关键词:
SPSS;聚类分析;判别分析;区域经济。
1.引言
由于传统的生产力布局造成的经济发展起点不同,加上地域、资源、技术和政策等条件的差异,各个地区的经济发展水平高低不齐。
因此,对各地区经济发展水平进行分类、比较和研究,总结出有助于经济发展的优势和阻碍经济发展的劣势,有针对性地制订地区经济发展战略,对促进国民经济协调发展有重要意义[1]。
聚类分析和判别分析是是进行以上分析的两个重要的方法。
1.1聚类分析
定义。
聚类分析又称群分析、点群分析。
根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。
聚类分析的基本思想。
我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系),于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类;关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。
1.2判别分析
定义。
判别分析是一种进行统计判别和分组的技术手段。
根据一定量案例的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立判别函数,然后便可以利用这一数量关系对其他未知分组类型所属的案例进行判别分组。
判别分析的基本思想。
对已知分类的数据建立由数值指标构成的分类规则即判别函数,然后把这样的规则应用到未知分类的样本去分类。
本文针对我国各省(直辖)市的2009年度经济数据,考虑到数据的可得性和来源的权威性,选取9个经济指标进行系统聚类分析,得到我国3类不同的地区经济类型;并利用实例进行判别分析,以确认聚类效果。
聚类结果将为制订有针对性的地区经济发展战略提供依据。
2.解决问题
2.1提出经济指标,收集数据
要对区域经济发展做出综合评价,首先需要从反映地区经济发展的众多指标中精选出一系列主要指标.这些指标应:
(1)体现我国地区经济协调发展的战略,全面反映建设社会义现代化强国的总目标;
(2)体现公平,建立一个全面的、综合的、公平的指标体系;(3)充分考虑统计数据的可采集性、指标的实用性和评价方法的可操作性,指标数量控制在合理的范围内。
本文选取了2009年全国26个省、直辖市、自治区的9项指标,旨在从四个方面分析地区经济:
(1)人力资源:
X1-就业人员(万人);
(2)经济产出:
X2-人均地区生产总值(元)、X3-第一产业生产总值(亿元)、X4-第二产业生产总值(亿元)、X5-第三产业生产总值(亿元);
(3)人民生活:
X6-各地区全体居民消费水平(元)、X7-社会消费品零售总额(亿元)、X9-城镇单位就业人员平均工资(元)
(4)资本投入:
X8-城镇固定资产投资亿元。
上述指标数据来源于《中国统计年鉴2010》,如表1所示,利用社会经济统计软件SPSS19.0建立数据库并对数据进行分析处理。
表一:
国内31个省、直辖市、自治区的9项指标数据[3]
地区
X1
X2
X3
X4
X5
X6
X7
X8
X9
北京
1255.0771
70452
118.29
2855.55
9179.19
22154
5309.9
4149.63
57779
天津
507.2572
62574
128.85
3987.84
3405.16
15149
2430.8
4446.57
43937
河北
3899.7263
24581
2207.34
8959.83
6068.31
7193
5764.9
10476.50
27774
山西
1599.6490
21522
477.59
3993.80
2886.92
6854
2809.0
4509.56
28066
内蒙古
1142.4670
40282
929.60
5114.00
3696.65
9668
2855.3
7143.84
30486
辽宁
2189.9600
35239
1414.90
7906.34
5891.25
10848
5812.6
11605.12
30523
吉林
1184.7065
26595
980.57
3541.92
2756.26
8410
2957.3
5958.95
25943
黑龙江
1687.4677
22447
1154.33
4060.72
3371.95
7737
3401.8
4695.74
24805
上海
929.2393
78989
113.82
6001.78
8930.85
29572
5173.2
4618.91
58336
江苏
4536.1304
44744
2261.86
18566.37
13629.07
11993
11484.1
14266.80
35217
浙江
3825.1840
44641
1163.08
11908.49
9918.78
15790
8622.3
7454.33
36553
安徽
3689.7458
16408
1495.45
4905.22
3662.15
6829
3527.8
7945.50
28723
福建
2168.8523
33840
1182.74
6005.30
5048.49
10950
4481.0
5548.61
28366
江西
2244.1462
17335
1098.66
3919.45
2637.07
6229
2484.4
6008.12
24165
山东
5449.7660
35894
3226.64
18901.83
11768.18
10494
12363.0
15439.10
29398
河南
5948.7810
20597
2769.05
11010.50
5700.91
6607
6746.4
11454.89
26906
湖北
3024.4758
22677
1795.90
6038.08
5127.12
7791
5928.4
7183.67
26547
湖南
3907.7007
20428
1969.69
5687.19
5402.81
7929
4913.7
6880.00
26534
广东
5643.3420
41166
2010.27
19419.70
18052.59
15291
14891.8
10230.05
36469
广西
2862.6294
16045
1458.49
3381.54
2919.13
6893
2790.7
4689.88
27322
海南
431.4476
19254
462.19
443.43
748.59
6695
537.5
942.68
24790
重庆
1878.4823
22920
606.80
3448.77
2474.44
8308
2479.0
4855.11
30499
四川
4945.2270
17339
2240.61
6711.87
5198.80
6863
5758.7
9090.09
28149
贵州
2341.1072
10309
550.27
1476.62
1885.79
5044
1247.3
2049.83
27437
云南
2730.2048
13539
1067.60
2582.53
2519.62
5926
2051.1
4117.51
26163
西藏
169.0721
15295
63.88
136.63
240.85
4060
156.6
327.64
45347
陕西
1919.4801
21688
789.64
4236.42
3143.74
7069
2699.7
5888.37
29566
甘肃
1406.6191
12872
497.05
1527.24
1363.27
5284
1183.0
2076.36
26743
青海
285.5393
19454
107.40
575.33
398.54
6495
300.5
689.09
32481
宁夏
328.5056
21777
127.25
662.32
563.74
7858
339.3
964.16
32916
新疆
829.1711
19942
759.74
1929.59
1587.72
5990
1177.5
2434.15
27617
注:
北京、河北、山东、贵州、重庆五省、直辖市、自治区不参与聚类分析,将作为实例数据进行判别分析,检验聚类结果。
2.2聚类分析
2.2.1聚类分析步骤
将国内26个省、直辖市、自治区的9项指标数据输入SPSS,做聚类分析,具体步骤为:
选择Analyze→Classify→HierarchicalCluster,进行系统聚类分析(HierarchicalClusterAnalysis),引入的变量是X1至X9。
采取对样品(个案)进行聚类,即Q型聚类分析(对研究对象本身分类)。
其中Statistics:
Singlesolution,NO.为3;Plot:
Dendrogram;聚类方法使用平均联结(组之间)(类间平均链锁法),距离测量技术选择Euclidean距离平方(即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类),Save:
NO.ofcluster为3,得出以下计算结果。
2.2.2聚类结果
表2案例处理汇总a
案例
有效
缺失
总计
N
百分比
N
百分比
N
百分比
26
100.0
0
.0
26
100.0
a.平均联结(组之间)
表2中分别为有效个案、缺失个案和个案总数的个数和百分数。
脚注显示聚类时采用的聚类方法为Between-groupslinkage平均联结(组之间)。
表3聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
2
22
4561345.303
0
0
8
2
14
15
7208462.908
0
0
9
3
24
25
7557591.086
0
0
18
4
17
20
10401374.973
0
0
7
5
18
26
14755902.798
0
0
13
6
10
19
15241795.236
0
0
15
7
12
17
19539029.141
0
4
10
8
2
6
19617723.925
1
0
9
9
2
14
29888533.870
8
2
11
10
12
23
31656913.717
7
0
13
11
2
5
40601907.875
9
0
17
12
4
11
49453303.579
0
0
14
13
12
18
49653173.012
10
5
18
14
3
4
62992431.751
0
12
21
15
10
13
65271276.798
6
0
17
16
8
16
74739070.114
0
0
20
17
2
10
83256074.767
11
15
19
18
12
24
94536493.094
13
3
19
19
2
12
1.171E8
17
18
21
20
8
9
1.583E8
16
0
24
21
2
3
3.922E8
19
14
22
22
2
21
5.099E8
21
0
24
23
1
7
7.271E8
0
0
25
24
2
8
1.110E9
22
20
25
25
1
2
3.206E9
23
24
0
表3所列各项的意义如下:
“阶”指聚类步骤号;“群集组合”指在某步中合并的个案;“系数”指距离或相似系数;“首次出现阶群集”指新生成聚类;“下一阶”指对应步骤生成的新类将在第几步与其它个案或新类合并。
表4群类结果
案例
3群集
1:
天津
1
2:
山西
2
3:
内蒙古
2
4:
辽宁
2
5:
吉林
2
6:
黑龙江
2
7:
上海
1
8:
江苏
3
9:
浙江
3
10:
安徽
2
11:
福建
2
12:
江西
2
13:
河南
2
14:
湖北
2
15:
湖南
2
16:
广东
3
17:
广西
2
18:
海南
2
19:
四川
2
20:
云南
2
21:
西藏
2
22:
陕西
2
23:
甘肃
2
24:
青海
2
25:
宁夏
2
26:
新疆
2
上表4给出了各成员的所属的类别:
第一类:
天津、上海;
第二类:
山西、辽宁、安徽、福建、河南、湖北、四川、内蒙古、吉林、黑龙江、江西、广西、海南、湖南、云南、西藏、陕西、甘肃、青海、宁夏、新疆;
第三类:
江苏、浙江、广东。
图1聚类分析树状图
图1清晰地表示了聚类的全过程。
根据聚类分析的原理:
聚类是一个将数据划分为若干簇或类的过程,并使得同一簇内的数据对象具有较高的相似度,而不同簇中的数据对象具有较低的相似度.相似度则由基于数据对象描述属性的取值来确定,通常就是各对象之间的距离。
从图中可以看出在起初各步中,难以看出有哪些聚类形成,但在最后一步,聚类合并时距离明显加大,线条很长,所以聚类终止。
2.3判别分析
2.3.1判别分析步骤
选择SPSS→Analyze→Classify→DiscriminantAnalysis,定义分类结果为指标变量X10,采用自变量全进入模型来进行判别分析,由于在聚类分析中将全国各省、直辖市的经济类型分为四类,因此其取值范围为1~3。
2.3.2判别分析结果
表5分析案例处理摘要
未加权案例
N
百分比
有效
26
83.9
排除的
缺失或越界组代码
5
16.1
至少一个缺失判别变量
0
.0
缺失或越界组代码还有至少一个缺失判别变量
0
.0
合计
5
16.1
合计
31
100.0
表5对回代判别结果进行了总结评价,有5个待预测量。
表6组统计量
AverageLinkage(BetweenGroups)
均值
标准差
有效的N(列表状态)
未加权的
已加权的
1
就业人员(万人)
718.248250
298.3864044
2
2.000
人均地区生产总值(元)
70781.500000
11607.1578132
2
2.000
第一产业生产总值(亿元)
121.335000
10.6278149
2
2.000
第二产业生产总值(亿元)
4994.810000
1424.0706309
2
2.000
第三产业生产总值(亿元)
6168.005000
3907.2528697
2
2.000
各地区全体居民消费水平(元)
22360.500000
10198.6011051
2
2.000
社会消费品零售总额(亿元)
3802.000000
1939.1696367
2
2.000
城镇固定资产投资亿元
4532.738850
121.8639848
2
2.000
城镇单位就业人员平均工资(元)
51136.500000
10181.6305423
2
2.000
2
就业人员(万人)
2128.373719
1545.9652923
21
21.000
人均地区生产总值(元)
21646.412381
7078.1262117
21
21.000
第一产业生产总值(亿元)
1087.730000
711.9441109
21
21.000
第二产业生产总值(亿元)
4017.591429
2723.4946252
21
21.000
第三产业生产总值(亿元)
3088.837143
1822.0839775
21
21.000
各地区全体居民消费水平(元)
7285.000000
1666.1717499
21
21.000
社会消费品零售总额(亿元)
2995.823810
2011.5339398
21
21.000
城镇固定资产投资亿元
5245.424490
3277.6681067
21
21.000
城镇单位就业人员平均工资(元)
28674.190476
4482.0182465
21
21.000
3
就业人员(万人)
4668.218800
916.2478580
3
3.000
人均地区生产总值(元)
43517.000000
2036.6769503
3
3.000
第一产业生产总值(亿元)
1811.736667
575.6656889
3
3.000
第二产业生产总值(亿元)
16631.520000
4112.4569673
3
3.000
第三产业生产总值(亿元)
13866.813333
4072.1134192
3
3.000
各地区全体居民消费水平(元)
14358.000000
2063.2908181
3
3.000
社会消费品零售总额(亿元)
11666.066667
3138.7085662
3
3.000
城镇固定资产投资亿元
10650.393667
3425.6345426
3
3.000
城镇单位就业人员平均工资(元)
36079.666667
748.2708957
3
3.000
合计
就业人员(万人)
2312.961577
1697.1939853
26
26.000
人均地区生产总值(元)
27949.563846
15969.3812438
26
26.000
第一产业生产总值(亿元)
1096.931154
754.6754964
26
26.000
第二产业生产总值(亿元)
5548.215385
4909.3033456
26
26.000
第三产业生产总值(亿元)
4569.308846
4124.5644347
26
26.000
各地区全体居民消费水平(元)
9260.769231
5181.4148285
26
26.000
社会消费品零售总额(亿元)
4058.250000
3474.8261923
26
26.000
城镇固定资产投资亿元
5814.252808
3569.8244732
26
26.000
城镇单位就业人员平均工资(元)
31256.538462
7763.5238197
26
26.000
表7组均值的均等性的检验
Wilks的Lambda
F
df1
df2
Sig.
就业人员(万人)
.688
5.207
2
23
.014
人均地区生产总值(元)
.180
52.533
2
23
.000
第一产业生产总值(亿元)
.759
3.661
2
23
.042
第二产业生产总值(亿元)
.306
26.117
2
23
.000
第三产业生产总值(亿元)
.270
31.093
2
23
.000
各地区全体居民消费水平(元)
.250
34.430
2
23
.000
社会消费品零售总额(亿元)
.346
21.754
2
23
.000
城镇固定资产投资亿元
.748
3.872
2
23
.036
城镇单位就业人员平均工资(元)
.336
22.708
2
23
.000
2.3.3典型判别式函数摘要
表8特征值表
函数
特征值
方差的%
累积%
正则相关性
1
11.228a
64.9
64.9
.958
2
6.078a
35.1
100.0
.927
a.分析中使用了前2个典型判别式函数。
表9.Wilks'Lambda值表
函数检验
Wilks的Lambda
卡方
df
Sig.
1到2
.012
84.753
18
.000
2
.141
37.183
8
.000
表10.标准化典型判别式函数系数表
函数
1
2
就业人员(万人)
2.226
1.235
人均地区生产总值(元)
1.787
1.438
第一产业生产总值(亿元)
-1.472
.674
第二产业生产总值(亿元)
.585
-3.218
第三产业生产总值(亿元)
.646
.460
各地区全体居民消费水平(元)
-.931
-.534
社会消费品零售总额(亿元)
-.509
-.113
城镇固定资产投资亿元
-1.305
.676
城镇单位就业人员平均工资(元)
.158
.287
表11典型判别式函数系数
函数
1
2
就业人员(万人)
.002
.001
人均地区生产总值(元)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 全国 地区 经济发展 水平 实例 判别分析