主成分因子聚类判别Word格式.docx
- 文档编号:16763182
- 上传时间:2022-11-25
- 格式:DOCX
- 页数:36
- 大小:525.88KB
主成分因子聚类判别Word格式.docx
《主成分因子聚类判别Word格式.docx》由会员分享,可在线阅读,更多相关《主成分因子聚类判别Word格式.docx(36页珍藏版)》请在冰豆网上搜索。
;
而且系数uij的确使yi、与yj(i≠j)相互无关,并使y1是x1,x2,…,xp的一切线性组合中方差最大者,y2是与y1不相关的x1,x2,…,xp的所有线性组合中方差最大者,……,yp是与y1,y2,…,yp-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者,则称y1,y2,…,yp为原变量的第一,第二,…,第p主成分。
三、模型的求解
要求原始变量的主成分,关键在于求公式(11.1)的系数值。
在应用主成分分析研究问题时,通常先将数据标准化,以消除量纲对结果的影响。
标准化的常用公式为:
,标准化后的数据均值为0,方差为1。
可以证明,变量x1,x2,…,xp标准化以后,其协方差矩阵S与相关系数矩阵R相等。
为了求出主成分,只需求样本协方差矩阵S或相关系数矩阵R的特征根和特征向量就可以。
设R的特征根λ1≥λ2≥…≥λp>
0,相应的单位特征向量为:
(ui1ui2…uip)’,那么相应的主成分就是:
四、主成分的性质
以下我们不加证明地给出主成分的有关性质。
性质1:
第k个主成分yk的系数向量是第k个特征根λk所对应的标准化特征向量Uk。
性质2:
第k个主成分的方差为第k个特征根λk,且任意两个主成分都是不相关的,也就是主成分y1,y2,…,yp的样本协方差矩阵是对角矩阵。
性质3:
样本主成分的总方差等于原变量样本的总方差。
性质4:
第k个样本主成分与第j个变量样本之间的相关系数为:
该相关系数又称为因子载荷量。
在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率取前k个。
第k个主成分的方差贡献率为:
,前k个主成分的累计方差贡献率为:
通常情况下,如果前k个主成分的累计贡献率达到85%,则表明取前k个主成分就能基本包含原指标中的信息了,从而达到减少变量个数的目的。
另一种选择主成分个数的方法是选择大于1的特征根所对应的主成分。
五、基本步骤与应用实例
(一)基本步骤
(1)对原变量的样本数据矩阵进行标准化变换
(2)求标准化数据矩阵的相关系数矩阵R
(3)求R的特征根及相应的特征向量和贡献率等
(4)确定主成分的个数
(5)解释主成分的实际意义和作用
(二)应用实例
【例11.1】我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标见表11.1,对各地区经济效益作出分析。
表11.1我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标
地区
工业增加值率(%)x1
总资产贡献率(%)x2
资产负债率(%)x3
流动资产周转次数x4
成本费用利润率(%)x5
劳动生产率(元/人年)x6
产品销售率(%)x7
北京
天津
河北
山西
内蒙古
辽宁
吉林
黑龙江
上海
江苏
浙江
安徽
福建
江西
山东
河南
湖北
湖南
广东
广西
海南
重庆
四川
贵州
云南
西藏
陕西
甘肃
青海
宁夏
新疆
27.90
27.28
36.46
36.80
38.09
28.15
28.18
52.80
29.29
26.48
32.67
34.22
28.51
32.60
30.77
33.75
34.48
31.23
33.70
25.93
30.25
31.62
34.06
55.32
57.56
37.04
29.98
30.79
30.62
45.02
5.22
8.12
5.41
6.09
7.36
8.28
24.07
9.01
8.58
10.84
7.35
10.89
6.40
11.70
7.39
7.46
9.67
10.56
8.63
6.44
6.11
6.84
7.99
20.93
10.67
5.14
5.21
6.32
12.81
57.23
58.84
60.28
62.59
57.37
59.49
64.72
55.81
47.48
59.73
55.04
60.96
58.52
67.53
61.54
65.02
62.58
66.40
56.89
69.68
66.08
63.82
63.93
68.29
50.04
25.43
67.63
65.87
72.47
60.98
60.85
1.31
1.85
1.49
.88
1.24
1.48
1.28
1.67
1.51
1.68
1.36
1.19
1.92
1.23
1.29
1.76
1.39
1.18
1.07
.83
1.37
.59
1.08
.58
1.16
1.78
2.63
6.80
5.49
2.49
2.31
4.67
6.20
37.64
7.21
4.48
6.67
2.67
6.79
1.55
8.42
4.07
4.58
2.20
7.59
5.54
4.46
2.19
4.22
3.71
11.59
29.89
7.67
3.07
15.81
53987.95
78191.27
42629.81
24413.53
35129.88
47955.68
40141.03
73120.46
118816.16
56044.81
66785.21
35674.30
91263.70
29123.49
52621.24
29296.86
49374.62
38179.94
120863.34
44140.89
58521.50
36638.20
35013.75
32317.42
96702.70
103001.24
38102.97
34352.92
51599.98
33620.79
118599.82
98.10
99.35
98.90
97.97
99.02
98.37
98.89
99.07
99.46
98.26
98.22
99.11
97.84
98.11
98.32
98.31
101.23
99.61
97.99
98.16
94.96
99.54
98.98
99.71
99.09
95.78
98.00
97.47
97.38
96.65
98.73
【解】计算过程如下:
1.将数据标准化,并求相关矩阵R
工业增加值率(%)ZX1
总资产贡献率(%)ZX2
资产负债率(%)ZX3
流动资产周转次数ZX4
成本费用利润率(%)ZX5
劳动生产率(元/人年)ZX6
产品销售率(%)ZX7
.77
-.90
.38
-.07
-.55
-.10
.26
.84
-.20
.19
1.45
-.02
.73
.80
.29
.02
.46
-.19
-.50
.41
.33
-.86
-1.26
-.57
-1.13
-.37
.49
-.69
-.36
-.26
-.59
-.76
.52
.74
-.39
-.11
.42
-.29
-.31
-.03
-.17
.51
-.14
-.58
.30
3.64
-.54
.96
3.90
.56
.59
.01
1.53
.50
.03
2.14
.89
.94
-.09
-.08
.99
-.13
.45
-.63
1.47
-.04
.34
-.16
.18
.06
.08
-.74
-.22
1.19
-.48
.69
-.62
-.96
-.25
.66
.13
1.65
-.15
-.38
.54
.05
.25
-.28
-.30
2.39
.04
.17
.71
-.60
-.65
1.02
.36
-.42
1.22
2.21
-.35
1.09
.16
-.18
-.44
-.21
1.01
-.61
.67
-.32
-2.91
.40
-.73
-.70
.95
-.51
.48
-.01
-.23
.93
-1.40
-.41
-.85
1.10
2.61
2.88
.12
1.38
.58
4.13
-2.08
2.92
1.59
-2.22
.85
.09
-.92
.64
-.78
-.79
-.91
1.42
-2.10
-.67
-.87
.43
-.64
.07
-.49
-.81
-1.49
1.25
1.13
2.13
.28
得相关系数矩阵为:
2.求R的特征根及相应的单位正交特征向量和贡献率
由R的特征方程
求得R的单位特征根λ为:
再由齐次线性方程组
求得特征向量U,将具体结果整理为下表:
对应的
特征向量
U1j
.439
-.251
.414
.017
.159
-.509
.538
U2j
.460
.228
.240
.398
.081
-.205
-.687
U3j
-.408
.247
.591
.532
.177
.242
U4j
.158
.689
-.372
.233
-.352
-.223
.366
U5j
.487
-.126
.130
.243
-.252
.750
.218
U6j
.408
.153
-.450
-.287
.706
.036
U7j
-.021
.565
.593
-.544
.006
.182
.010
特征根
3.422
1.446
1.016
0.591
0.279
0.162
0.084
贡献率
48.88%
20.66%
14.52%
8.44%
3.98%
2.32%
1.20%
3.确定主成分的个数q
按
的原则,取三个主成分就能够对工业企业经济效益进行分析,且这三个主成分的累计方差贡献率达到84.06%主成分的表达式为:
4.主成分的经济意义
第一主成分y1中,zx4、zx7的系数相对较小,表明此两指标在y1中作用较小。
而zx1、zx2、zx5、zx6的系数都在0.4左右,说明它们的作用相当,但zx3的系数为负值(-0.48),对y1起着明显的反向变化作用:
zx3(资产负债率)取值越大,y1的值就越小。
资产负债率是反映企业经营风险的指标,y1的含义是在综合其它变量所反映信息的基础上,突出地反映了企业经营风险的大小。
第二主成分y2中,zx4的系数最大,为0.689,zx4(流动资金周转次数)取值越大,y2的取值也明显地增大,说明y2在综合其它变量信息的基础上,突出地反映了企业投入资金的周转速度。
第三主成分y3中,zx7(产品销售率)的系数最大,为0.593,说明y3在综合其它变量信息的基础上,突出地反映了工业产品满足社会需求的情况。
第二节因子分析
在实际问题的分析中,有时需要对不能直接观测的潜在因素进行分析,如企业的形象,企业文化、创新能力等都是不可直接观测到的变量(潜在变量),而利税总额、劳动生产率等都是显在变量。
因子分析(FactorAnalysi)用少数几个潜在随机变量去描述多个显在随机变量之间的相关关系,换句话说,因子分析是把每个可观测的原始变量分解为两部分因素,一部分是由所有变量共同具有少数几个公共因子构成的,另一部分是每个原始变量独自具有的,即特殊因子部分,对于所研究的问题就可试图用最少个数的不可观测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
二、数学模型
(一)符号与假定设有n个样本,每个样本观测p个变量,记:
原始变量矩阵为X:
_,公共因子变量矩阵为F:
_,特殊因子矩阵为E:
_假定因子模型具有以下性质:
1.E(x)=0,cov(x)=∑2.E(F)=0,D(F)=I3.E(E)=0,D(e)=diag(σ12,σ12,…,σp2)4.Cov(F,E)=0
(二)因子模型我们将p个变量xi(i=1,2,…,p)表示成公共因子F与特殊因子的线性组合:
若用矩阵形式表示,则为:
X=AF+E式中的
,称为因子载荷矩阵,并且称aij为第i个变量在第j个公共因子上的载荷,反映了第i个变量在第j个公共因子上的相对重要性。
三、因子载荷的统计含义可以证明因子载荷aij为第i个变量xi与第j个公共因子Fj的相关系数,即反映了变量与公共因子的关系密切程度,aij越大,表明公共因子Fj与变量xi的线性关系越密切。
因子载荷矩阵中各行元素的平方和:
,
称为变量x1,x2,…,xp的共同度。
它表示q个公共因子F1,F2,…,Fq对变量xi的方差贡献,变量共同度的最大值为1,值越接近于1,说明该变量所包含的原始信息被公共因子所解释的部分越大,用q个公共因子描述变量xi就越有效;
而当值接近于0时,说明公共因子对变量的影响很小,主要由特殊因子来描述。
因子载荷矩阵中各列元素的平方和:
,
称为公共因子F1,F2,…,Fq的方差贡献。
它与p个变量的总方差之比为:
,是衡量各个公共因子相对重要程度的一个指标。
方差贡献率越大,该因子就越重要。
四、因子的求解
要建立因子分析模型,关键就在于解出其因子载荷矩阵A。
A的求法很多,这里仅介绍主成分法。
前一节已提及,在对数据进行标准化后,样本的协方差矩阵S与相关系数矩阵R相等。
设相关系数矩阵的特征根为λ1≥λ2≥…≥λp,相应的特征向量为U1,U2,…,Up,设由列向量
构成的矩阵有A表示,即
A=
可以证明R的分解式为
,这个公式是一个精确可行的因子分解式,实际这就是主成分分析法的根据。
由相关系数矩阵R求出的解A即为因子载荷矩阵,A的估计值为:
因子分析的目的是将多个变量简化为数量较少的因子,以便进行下一步的分析,所以一般来说,公共因子的个数q要小于等于变量的个数p,而且q越小越好,当q与p的差异较大时,便能将高维空间的问题降至低维空间进行处理。
在实际问题中,q的数值通常可以采用不同的方法加以确定。
如根据累计方差贡献率≥85%确定,或者根据大于1的特征根来确定。
五、因子得分
当获得公共因子和因子载荷后,我们可以进一步考察每一个样本点在每一公共因子上的得分,从而对样本点进行评价、排序比较和分类。
估计因子得分函数的常用方法是回归法,因子的得分估计为:
六、基本步骤与应用实例
1.用公式
对原始数据标准化
2.建立相关系数矩阵R
3.根据
及
求R的单位特征根λ与特征向量U;
4.根据
求因子载荷矩阵A;
5.写出因子模型X=AF+E
6.求因子得分
【例11.2】仍以我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标作为研究对象,试求:
(1)正交因子模型;
(2)各个变量的共同度以及特殊因子方差;
(3)每个因子的方差贡献率以及三个因子的累计方差贡献率;
(4)说明三个因子的意义。
【解】
1.
(1)将原始数据标准化后求得其相关系数矩阵R为
(2)特征根与特征向量
根据
求得R的大于1的单位特征根λ与特征向量U分别为:
.439-.251.414
.460.228.240
-.408.228.247
U=.158.689-.372
.487-.126.130
.408.153-.450
-.021.565.593
(3)因子载荷矩阵为
(4)因子模型为
2.结果见下表
变量
因子载荷
共同度
特殊因子方差
F1
F2
F3
X1
X2
X3
X4
X5
X6
X7
.813
.851
-.754
.293
.901
.754
-3.956E-02
-.302
.274
.829
-.151
.184
.679
.417
.249
-.375
.131
-.454
.598
.927
.858
.705
.914
.853
.808
.820
0.073
0.142
0.295
0.086
0.147
0.192
0.180
方差贡献率
4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 因子 判别