1、多元统计分析课程设计多元统计分析课程设计主成分分析法在我国居民生活质量状况综合评价中的应用 内容摘要:改革开放以来,我国各地区间的经济发展速度有着明显差别,而人民的生活质量也因此产生了不同,本文用主成分分析法,选取多个指标,对全国31个省市居民的生活质量进行了简单的分析。关键词:数据选取 数据分析 主成分分析 使用软件:SPSS一 主成分分析1.主成分分析定义主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所
2、研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。2.主成分分析法方法简介主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。 其中Li为p维正交化向量(Li
3、Li1),Zi之间互不相关且按照方差由大到小排列,则称Zi为X的第I个主成分。设X的协方差矩阵为,则必为半正定对称矩阵,求特征值i(按从大到小排序)及其特征向量,可以证明,i所对应的正交化特征向量,即为第I个主成分Zi所对应的系数向量Li,而Zi的方差贡献率定义为ij,通常要求提取的主成分的数量k满足kj。3.主成分分析主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。二问题背
4、景及数据1.问题及背景 背景:随着生产力水平的不断提高,我国居民生活水平不断提高,生活质量也在不断改善。但是,受各地生产力发展水平不平衡的影响,我国各地居民的生活质量也表现为不平衡。 问题:利用主成分分析法对我国31个省市、自治区居民的生活状况进行评价分析。为全面分析各地居民生活状况,可选取如下指标体系进行反应:职工人均工资、人均居住面积、城市人均用水普及量、城市煤气普及量、人均拥有道路面积、人均绿地公共面积、批发零售贸易商品销售总额、旅游外汇收入。2.数据 图1数据来源:中国统计年鉴2009三 详细分析过程 第一步:录入数据,有以下变量:职工人均工资,人均居住面积,城市人口用水普及量,城市煤
5、气普及量,人均拥有道路面积,人均绿地公共面积,批发零售贸易商品销售总额,旅游外汇收入,见图2 图2 第二步:选择功能模块 图3第三步:将变量添加到Varicribles中图4第四步:输入信息 图5 图6 图7 图8图9第五步:单击“OK”按钮,完成运算。 图10三结果分析1.CommunalitiesInitialExtraction人均工资.730居住面积.598人均用水.636煤气普及.794人均道路.776人均绿地.771商品总额.883旅游外汇.653分析:第一列是列出八个原始变量,第二列是根据主成分分析初始解计算出变量共同度,第三列是是根据主成分分析最终解计算出变量共同度,这时由于因
6、子变量个数少于原始变量个数,因此每个变量的共同度必然小于1。例如,第一行中表示m个因子变量共同解释掉原始变量“人均工资”方差%。2.Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative %123.8834.4635.4426.2307.
7、0938.048.597Extraction Method: Principal Component Analysis.分析:上表为spss输出结果,从上表可以看出特征值和和贡献率。从上表可以看出公共因子对原变量总体的描述情况。可以看出前2个公共因子的的贡献率达到%,所以提取2个公共因子就可以反映原变量的大部分信息。3.分析:上图为公共因子碎石图,它的横坐标为公共因子数,纵坐标为公共因子的特征值。可以看出前2个公共因子的特征值变化非常明显,到2个以后趋于平稳。所以得出提取2个公共因子可以对原变量的信息描述有显著作用。这与Communalities的结论也相符合。4.Component Scor
8、e Coefficient MatrixComponent12人均工资.216居住面积.200人均用水.173.134煤气普及.187.170人均道路.460人均绿地.018.426商品总额.249旅游外汇.213分析:该表格是因子得分矩阵,这是根据回归年算法计算出来的因子得分函数的系数,根据这个表格可得下面的因子得分函数 F1=+将根据2个因子得分函数自动计算样本的2个因子得分,并且2个因子作为新变量,保存到SPSS窗口中第一主成分在人均拥有道路面积的系数上为负,其他为正,而且职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入的系数绝对值比较大,说明第一主成分代表了我国居民生
9、活质量状况针对职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入和其他居民生活质量状况的反应指标之间的差异。第二主成分在职工人均工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入的系数上为负,其他为正,而且人均拥有道路面积和人居绿地公共面积的系数的绝对值比较大,说明第二主成分代表了我国居民生活质量状况针对人均公共设施需求(人均拥有道路面积和人居绿地公共面积)和其他居民生活质量状况的反应指标之间的差异。主成分得分表分析,主成分得分表如下:北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 结论:第一主成得分较高的有北京、天津、上海、江苏、浙江、辽宁,这几个省份都是经济比较发达的地区,第一主成分代表的意义为我国居民生活质量状况针对职工人居工资、人均居住面积、批发零售贸易商品销售总额、旅游外汇收入和其他居民生活质量状况的反应指标之间的差异。第二主成得分较高的有山东、河北、陕西等地,由于第二主成分代表的意义为我国居民生活质量状况针对人均消费品普及量及人均公共设施需求,由此可见这几个地区非常注重人均公共设施需求及人均消费品普及量这些方面。