变量之间的相关关系文档格式.docx
- 文档编号:14681675
- 上传时间:2022-10-23
- 格式:DOCX
- 页数:12
- 大小:38.14KB
变量之间的相关关系文档格式.docx
《变量之间的相关关系文档格式.docx》由会员分享,可在线阅读,更多相关《变量之间的相关关系文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
得到的结果很不可靠,难以使人信服.
2•散点图一描述相关关系的直观工具
由于相关关系的不确定性,寻找变量X和Y之间的相关关系时,首先要对变量进行观测•设n次观测
值为在直角坐标系中,横轴代表变量X,纵轴代表变量Y,将观测数据用坐标点的形式描绘岀来,得到的图形称为散点图•散点图是研究相关关系的直观工具,可以定性的判断相关的方向和程度.
如果散点大致分布在一条直线附近,又不完全在一条直线上,说明变量间具有线性相关关系;
如果这
些点大致分布在一条曲线附近,说明变量间具有非线性相关关系;
如果这些点的分布几乎没有什么规则,说明两个变量间没有相关关系•对于线性相关,如果散点从左下角到右上角沿直线分布,那么两个变量正相关,如果散点从左上角到右下角沿直线分布,两个变量负相关•如果散点在整体上和某一直线越接近,表明变量间相关关系越强.
3•数据分析方法一相关分析与回归分析
对变量间相关关系,在定性分析的基础上,需要进行定量分析•定量分析有相关分析和回归分析两种方法.相关分析是用一个指标(称为相关系数)来反映变量间相关关系的密切程度(见人教A版必修3P85,
阅读与思考)•回归分析就是根据相关关系的具体形态,选择一个合适的数学模型,来近似表达变量间的平均变化关系•相关分析和回归分析具有共同的研究对象,在具体应用时,需要互相补充•作相关分析需要依靠回归分析表明变量相关的具体形式,而进行回归分析需要通过相关分析表明变量间的相关程度,只有变量间存在高度相关时,由回归分析得到的变量间的具体形式才有意义.
相关分析研究变量间的相关的方向和相关程度,它不提供相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况•相关分析不必确定哪个变量是自变量,哪个是因变量,所涉及的两个变量可以都是随机变量•回归分析根据观测数据,确定一个数学方程式(回归方程),根据这个方程式可以由已知量推测未知量,为估算和预测提供一个重要方法•回归分析必须事先确定具有相关关系的变量中
哪个为自变量,哪个为因变量•一般地说,自变量是普通变量(人为可以控制其取值),因变量是随机变
量.
4•最小二乘思想一统计学基础的重要部分
当两个变量之间存在相关关系时,由于不确定性,如果只有很少几组变量观测值,很难估计误差的大
小•法国法数学家勒让德(LeGendre,1752—1833)在根据测量数据预测彗星轨道的问题时,发现了如何
有效利用全部测量数据的方法•即通过计算得岀一组数值,在使数据组的偏差达到最小的意义下,这些数
值是最优的•由勒让德的方法得岀的数值充分利用了所有数据信息,这个方法现在叫做最小二乘法.
人们立即认识到勒让德发现的价值,运用最小二乘法的数学并不难,所以绝大多数从事测量的科学家,
都能从这一方法中受益,他们可以充分利用数据•当时最小二乘思想在科学界迅速流传.
1809年,德国数学家高斯(Gauss,1777—1855年)在一篇论文中,分析了如何充分利用一系列测量
数据来预测天体轨道的问题,在文章中也叙述了最小二乘法,并声称自己发明了这一方法.
事实上,勒让德第一个发表了最小二乘法思想,并影响了统计学;
高斯也使用了最小二乘法,并且考
虑了最小二乘法的误差分析问题,他还发现了最小二乘法理论中的重要结果,它从统计学的角度回答了最
小二乘法在缩小误差上的优势,使得在勒让德那里只是处理测量数据的代数方法逐渐渗透到统计数据分析
的领域,最小二乘法对统计学就象微积分对于数学中的影响一样深远,高斯的巨大声望使一些历史学家把最小二乘法归功于他.
下面通过一个简单问题,阐述最小二乘思想.
YY
一段公路,实际长度为a千米,a是未知的,对公路进行n次实际测量,假设测量值为•可
是每次测量都有一定的误差,这些误差或正或负,或大或小.应该如何估计a的值呢?
直观的想法是a的
值应该最接近这些测量数据,数学描述就是:
a的值应该使所有的误差平方和达到最小.
h«
a
/⑷二£
(召—说)适吗+乞彳
1-1i-1j-J
当J-时,
/W
达到最小•即用测量数据的平均值作为
a的估计值•这里估计参数a所采用的
就是最小二乘法的思想•用数理统计知识可以证明这样的估计也是最佳的.
最小二乘法的优点是:
有效利用了全部测量数据,使误差平方和达到最小,防止了某一极端误差对决定参数估计值取得支配性地位•在计算上只需对参数求偏导数求解线性方程组即可.
5.回归直线与回归方程
当两个变量之间具有线性相关关系时,散点图中的点大致分布在一条直线附近,这条直线叫做回归
直线,这条直线的方程叫做回归方程•
数学模型:
假设因变量y主要受自变量x的影响,它们之间的数量关系为,其中x
是非随机变量,二门是未知的常数•F是随机误差项,它反映了未列入方程的其它各种因素对y的影响•从
而y是随机变量,它可以用由x的值完全确定的部分和随机误差F部分来解释•当由观测数据
”估计岀」和b时,得到直线回归方程为/--'
:
,•
「弋入“二中,得
"
:
--^+^,或mm「,I,.......
其中J…:
!
为n次观测的误差•求*的估计值,使“从整体上看各点与直线•-=;
;
』■:
的距离最小”•应用最小二乘思想,就是求使误差平方和达到最小的-*的值•可
以用配方法或求偏导数的方针求岀-:
的估计值.
6•相关系数一变量间线性关系密切程度的度量
相关系数是用来衡量两个变量之间线性关系密切程度(强与弱)的一个数量指标•只有了解构造相
关系数的统计思想,才能对相关系数有较深刻的理解•下面对相关统计量的意义及构造相关系数的统计思想做一简述.
设回归方程为1—宀亠U,与J对应的回归值为门二•称「「为偏差,称
&
二头仏—„
U为偏差方和•的值越小,反映各偏差普遍较小,数据点整体上比较接近回归直线,
说明变量间线性关系比较密切•但是一个绝对量,需要进行调整.
为方便引入以下记号:
・二£
(咅可b二勿再-对(片-刃》二Q価-才i=-
衡量数据?
的波动大小,-衡量数据的波动大小.
恥斗(片乍)二营倚-厅&
反映主要由的变化引起的间的波动,
二反映除线性关系之外的各种随机因素引起的
间的波动.
宀1皂玉生
可以证明:
•令圧'
丹—,显然0<
r3<
l,而且2越接近i,
就越接近0,说明x和y之间的线性关系越密切.
当匚〉〔时,x和y正相关,当R0时,x和y负相关•但由于只与直‘有关,所以不能反映
相关的方向•因此定义相关系数如下:
r=b
-l<
r<
l,一般,越接近1,X和y之间的线性关系越密切.
需要注意的两点是:
(1)相关系数只衡量变量间线性关系的密切程度,即使变量间具有确定的非线
性函数关系,"
也可能非常接近0.
(2)当n很小时,即使"
非常接近1,也不表明变量间的线性关系
强•例如,无论x和y之间是何种关系,当n=2时,总有.
二、教学建议
1•“相关关系”的有关概念及定性描述
相关关系的概念是描述性的,不必追求形式化上的严格•建议采用案例教学法•对比函数关系,重点突岀相关关系的两个本质特征:
关联性和不确定性•关联性是指当一个变量变化时,伴随另一个变量有一定的变化趋势;
不确定性是指当一个变量取定值时,与之相关的变量的取值仍具有随机性•因为有关联性,才有研究的必要性•因为其不确定性,从少量的变量观测值,很难估计误差的大小,因此必须对变量作大量的观测•但每个观测值都有一定误差,为了消除误差的影响,揭示变量间的本质联系,就必须要用统计分析方法.
判断两个变量间是否具有相关关系,一是凭经验及学科专业知识,二是借助散点图•下面是一些可供选择的例子,教学时可先逐一分析其关联性和不确定性,然后结合散点图,进一步判断相关关系的类型和方向.
实例
变量X和Y
关联性
不确定性
相关类型
家庭收入
X,
收入高的家庭消费支岀相应
收入相同的家庭,消费支出
例1
消费支岀
Y
也较高.
未必相同.
正线性相关
人的身高
一般身材较高者,脚的尺寸
同样身高的人,脚的尺寸不
例2
脚的长度
也较大
一定相同.
数学成绩
数学成绩高者,一般英语成
存在数学成绩高(低)而英
例3
英语成绩
绩也较高,反之也对.
语成绩低(高)的学生.
(虚假相关)
气温X,
随着气温的升高,热饮的销
温度相同的日期内,热饮的
例4
热饮销量
量相应会减少.
销量也未必相同.
负线性相关
例5(非线性相关和不相关的例子)对0到18岁之间的未成年人来说,年龄和身高之间具有非线性的相
关关系•对成年人来说,年龄和身高之间没有相关关系(散点图略)
例6吸烟和患肺部疾病之间不具有因果关系,但具有相关关系•我们引入两值变量X和Y:
吸烟
不吸烟
fl患肺部疾病r=
o,不患肺部蘇
如果调查了700人,其中400个不吸烟者中有40人患肺部疾病(10%,300个吸烟者中有60个人
患肺部疾病(20%,说明吸烟对患肺部疾病有一定的影响•但不吸烟者也可能患肺部疾病,吸烟者也可能
不患肺部疾病,因此X和Y之间具有相关关系.
例7有人曾经观察过某一国家历年的国内生产总值与精神病患
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 变量 之间 相关 关系