应用多元统计分析(全套课件533P).pptx
- 文档编号:112774
- 上传时间:2022-10-03
- 格式:PPTX
- 页数:532
- 大小:18.80MB
应用多元统计分析(全套课件533P).pptx
《应用多元统计分析(全套课件533P).pptx》由会员分享,可在线阅读,更多相关《应用多元统计分析(全套课件533P).pptx(532页珍藏版)》请在冰豆网上搜索。
,应用多元统计分析,在我们对某现象进行研究时,常常需要同时观测多个指标。
如,衡量一个地区的经济发展水平时,不仅要考虑国内生产总值水平、而且还要考虑收入、消费、投资、进出口等多个指标;,上述指标,在统计中通常称为变量。
什么是多元统计分析,如何同时对多个变量进行有效的分析和研究?
一种做法是把多个变量分开分析,一次仅分析一个变量,最多也就是研究两个变量之间的关系,这就是我们已经在统计学中学过的一元统计分析;,另一种做法是对这些所要研究的变量同时进行分析研究,即多元统计分析。
什么是多元统计分析,多元统计分析是研究多个变量之间关系以及内在的统计规律的一门统计学科。
利用多元统计分析的方法不仅可以对多个变量之间的相互依赖关系以及内在的统计规律进行分析,而且还可以对研究对象进行分类和简化。
什么是多元统计分析,本课程的主要内容,首先介绍多元统计中的一些基本概念和表述方法主要包括:
变量的类型数据的特征向量和矩阵多维度数据的几何表达多元正态分布和检验,本课程的主要内容,第二、从假设检验入手,讲述一元总体均值的检验,进而引入到多元总体均值的检验。
第三,从一元方差分析入手,介绍方差分析的原理,进而到多元方差分析。
第四,主要讲述把对象分类和归类的聚类与判别分析的基本原理和实现方法。
第五,是寻找多个变量的代表:
主成分分析和因子分析第六,介绍能反映行变量和列变量的列联分析和对应分析第七,介绍能够确定两组变量的关系:
典型相关分析,本课程的主要内容,主要利用统计软件SPSS,学习和掌握各种多元统计方法;从数据入手,来讲述各种分析方法,最后得出结论;学习的目标:
在理解多元统计分析方法的基本原理和掌握每种方法的应用前提条件下,会使用统计软件SPSS,进行多元统计分析。
本课程特点主要介绍各种多元统计分析方法的基本思路和原理,而不主要讲述各种方法的数学推导过程;,多元统计分析何晓群、中国人民大学出版社,多元统计分析于秀林、任雪松中国统计出版社,多元统计引论张尧庭、方开泰、科学出版社,社会统计分析方法-SPSS软件应用郭志刚、中国人民大学出版社统计分析与spss的应用薛薇、中国人民大学出版社,本课程的主要参考书目,多元统计的产生和应用,多元分析起源于本世纪初,1928年Wishart发表论文多元正态总体样本协方差阵的精确分布,是多元分析的开端。
多元统计分析主要发展于三、四十年代,Fisher、Hotelling、Roy、徐宝禄等人做了一系列的多元统计分析的理论探索。
但是由于多元分析的计算复杂,计算量又大,使其发展受到影响。
随着计算机的普遍应用及统计软件的广泛应用,多元统计重新出现活力,现已大量应用于各种领域中。
多元统计的产生,:
如不同地区的经济发展水平比较,综合的经济效,经济学上的应用益评价等,医学上的应用:
如研究某种病的起因,研究某种新药或某种医疗方法的治疗效果,利用计算机初步诊断病情等。
体育科学的研究:
如对运动员的心理研究、体能研究等。
另外在生态学、地质学、社会学、考古学、生物学、军事科学等等领域,多元统计都得到了广泛的应用。
多元统计的应用,复旦大学李贤平教授与它的学生对红楼梦进行了多元统计分析。
把红楼梦的120回,作为120个样本,以虚词做为变量,计算在每一回中(样本)变量(虚词)出现的次数,然后用聚类的方法进行分类。
结论:
120回分为两类,前80回为一类进一步与曹雪琴著作相比分析,答案是肯定的。
后40回为一类进一步分析,证实不是,多元统计的应用,现有统计系某年级三个班(经分、调预、电统)的学生(部分)在某学期完成的课程学习成绩资料(见下表)。
其中三个班级相同的课程有六门:
经济统计、管理统计、调查理论与方法、银行信用学、统计预测和计量经济学。
请将这三个班学生的学号、班级、性别以及六门课程的成绩输入到SPSS中,并保存(自己可现编几个数据)。
SPSS软件应用的回顾,请将下表数据以变量形式输入SPSS中,并能以该表的形式输出,以文件保存。
SPSS软件应用的回顾,观点:
赞成,观点:
不赞成,男女,第二章,多元数据与变量,变量的类型,变量的数字特征,均值,方差,协方差,相关,多个变量随机向量,我们所讨论的是多个变量的总体,所研究的数据是同时观测p个指标(即变量),又进行了n次观测得到的,常用向量表示:
X(X1,X2,XP),样品,变量,12,n,X1x11x21,xn1,X2x21x22,xn2,XPxP1xP2,xPn,随机向量,样本资料矩阵可用矩阵语言表达:
12,p,X,X
(1)X
(2)X(n),x1px2pxnp,x11x12x21x22xn1xn2,(X,X,X),随机向量的数字特征,随机向量X的均值:
p,X,2,1,E(X2)E(XP),E(X1),随机向量的数字特征,随机向量X自协方差阵:
随机向量的数字特征,随机向量X的相关阵,i,j,r,D(Xi)D(Xj),ij,(rij)pp,R(corr(Xi,Xj)cov(Xi,Xj),1,2,p,随机向量的数字特征,随机向量X和Y的协方差阵,X,(Y1,Y2,YP),(X1,X2,设Xn)和Y,分别为n维和p维随机向量,则:
cov(X,Y)(cov(Xi,Yj),i1,n;j1,p)若cov(X,Y)=0,称X和Y是不相关的,变量的标准化,在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在实用某种统计分析方法之前,常需将每个指标“标准化”,即作如下变换:
xE(x),一元:
x*,标准化的例子,标准化的目的,正态分布图形,随机向量的数字特征,在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在实用某种统计分析方法之前,常需将每个指标“标准化”,即作如下变换:
0,D(X*),于是:
E(X)*corr(X)R,j,*,j,varX,XjE(Xj),多元:
X,xE(x),一元:
x*,即标准化数据的协方差阵正好是原指标的相关阵,多元数据的几何表示,三变量的散点图,星图,切尔诺夫脸,树状图,神经网络图,第三章多元正态分布,多元分布的基本概念,随机向量,我们所讨论的是多个变量的总体,所研究的数据是同时观测p个指标(即变量),又进行了n次观测得到的,常用向量表示:
X(X1,X2,XP),样品,变量,12,n,X1x11x21,xn1,X2x21x22,xn2,XPxP1xP2,xPn,随机向量,样本资料矩阵可用矩阵语言表达:
12,p,X,X
(1)X
(2)X(n),x1px2pxnp,x11x12x21x22xn1xn2,(X,X,X),分布函数与密度函数,随机变量的分布函数:
F(x)P(Xx)随机向量的分布函数F(x)F(x1,x2,xP)P(X1x1,Xpxp),分布函数与密度函数,随机变量的密度函数:
tp,p,t,ft,p,F(x),t1,1,(,)d,d,x1x,x,F(x)f(t)dt随机向量的密度函数,一元正态分布,12,)22,0,,,(x2,e,f(x),均值是:
方差是:
标准差是:
2,2),记为:
N(,,多元正态分布,多元正态分布的密度函数为,),),2,exp,1/2,1,1(x,f(x,p,11(x)p/2,(2,x),Np(,),X,记为:
均值向量是:
协方差阵是:
多元正态分布,多元正态分布,多元正态分布,定理1设XN(,),则E(X)=,D(X)=,定理2,正态分布的条件分布仍为正态分布,均值向量和协方差阵的估计,在实际问题中,通常可以假定被研究对象是多元正态分布,但分布中的参数和是未知的,一般的做法是通过样本来估计。
设样本资料为:
12,p,X
(1),X,X
(2)X(n),x1px2pxnp,x11x12x21x22xn1xn2,(X,X,X),均值向量和协方差阵的估计,则总体参数均值的估计量是:
n,i,X,X1X2XP,Xi1Xi2Xip,Xi1,1n,即均值向量的估计量,就是样本均值向量,均值向量和协方差阵的估计,总体参数协方差阵的极大似然估计是,1S1nn,X)(X(i)X),n,i1,(X(i),m,Sn1,1,均值向量和协方差阵的检验,均值向量和协方差阵的检验,在一元统计中,对正态总体均值和方差检验时常用的分布有:
Z分布,t分布,F分布,X2分布。
那么对于多元正态总体的均值向量和协方差阵的检验也会用到相应的分布:
X2分布Wishart(维希特)分布(p17)t分布HotellingT2分布(p23)F分布Wilks分布(p27),均值向量的检验,一元检验的回顾,当,未知时,用t统计量和t分布检验。
0,设从总N体(,2)中抽了一个样本,要检验假设H0:
当H1已:
知时,用Z0统计量和Z分布检验。
2,2,均值向量的检验,多元均值检验,假设:
需要用T2统计量和T2分布来检验。
只不过已知协差阵和未知协差阵的T2统计量计算方法不同。
0,0,:
H1,H0:
均值向量的检验,均值向量的检验又可分为:
一个样本与已知总体均值向量的检验两总体均值向量的检验多总体均值向量的检验以上的检验过程都可由SPSS软件中的Multivariate来完成。
协方差阵的检验,该检验可由SPSS软件的Multivariate中的BoxsM,检验来完成。
又分为:
两总体的协差阵相等的检验:
0多总体的协差阵相等的检验:
r,1,第四章多元正态总体,均值向量和斜方差阵的检验,第一节假设检验的回顾,为什么要假设检验?
我们举妇女身高的例子,如果在2002年对10000名妇女的身高进行了全面调查,得出平均身高为160cm,标准差为5cm。
在2004年对该妇女(还是原总体)进行了随机抽样调查,调查了100名妇女,测得样本身高162cm,标准差为5cm。
请问:
调查结果是否说明这批妇女的身高升高了?
为什么要假设检验?
为了回答这个问题,我们必须知道:
样本平均身高与总体平均身高之差,xX1621602cm是由什么原因造成(或带来)的,即是抽样误差造成的身高没变化2cm产生的原因不仅是误差,确实是身高发生了变化,为什么要假设检验?
又如:
同一位老师教授统计系本科两个班同一门课程,如果两个班考试内容和形式完全一样,但是平均成绩却不同:
一班28人,平均成绩74.82分,标准差10.06分三班38人,平均成绩76.74分,标准差9.11分请问:
这两个班的平均成绩是否有显著的差异?
(学生成绩.sav),为什么要假设检验?
还有:
某减肥产品夸口说它的减肥效果是如何如何的好,如果我们有一些志愿者对该产品试服减肥,减肥前和减肥后的体重发生了一些差异。
(具体数据见spss数据:
diet.sav),请问:
体重发生的差异是否显著的?
即减肥是否真有效果,是否能相信该减肥产品的减肥效果?
为什么要假设检验?
这样的例子很多,其实只要我们进行比较、判断时:
总体与样本比,不同总体之间比,样本与样本比等,都要用到假设检验。
那么如何检验呢?
如何假设检验?
还是回到妇女身高的例子,已知样本均值与总体均值相差2cm,这2cm是如何造成的?
是抽样误差造成的身高没变化2cm产生的原因不仅是误差,确实是身高发生了变化,如何假设检验?
首先可假设这2cm的误差是由抽样误差造成的。
在总体参数估计中我们学过了样本均值的分布:
即:
样本均值(x)服从N(X,n),100),即:
xN(160,5,样本均值(x)服从正态分布N(X,)n,P(X,X)68.27%,P(X2,X2)95.45%,P(X3,X3)99.37%,如何假设检验?
那么:
如果,于2或3个标准差,即,真2c是m由抽样误差造成的,那么它就不应该大,(xX),2或3,n,(xX),2cm,等于?
个标准差呢?
n,(xX),如何假设检验?
反之,如果:
2或3,n那么我们说不应该发生的小概率发生了,即2cm的误差不仅是由
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 全套 课件 533