1、23 变量的相关性2.3 变量的相关性2.3.1变量之间的相关关系教学目标:通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。教学重点:通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。教学过程:案例分析:一般说来,一个人的身高越高,他的人就越大,相应地,他的右手一拃长就越长,因此,人的身高与右手一拃长之间存在着一定的关系。为了对这个问题进行调查,我们收集了北京市某中学2003年高三年级96名学生的身高与右手一拃长的数据如下表。性别身高/cm右手一拃长/cm女15218.5女15316.0女15616.0女15720.
2、0女15817.3女15920.0女16015.0女16016.0女16017.5女16017.5女16019.0女16019.0女16019.0女16019.5女16116.1女16118.0女16218.2女16218.5女16320.0女16321.5女16417.0女16418.5女16419.0女16420.0女16515.0女16516.0女16517.5女16519.5女16619.0女16719.0女16719.0女16816.0女16819.0女16819.5女17021.0女17021.0女17021.0女17119.0女17120.0女17121.5女17218.5女17
3、318.0女17322.0男16219.0男16419.0男16521.0男16818.0男16819.0男16917.0男16920.0男17020.0男17021.0男17021.5男17022.0男17121.5男17121.5男17122.3男17221.5男17223.0男17320.0男17320.0男17320.0男17320.0男17321.0男17422.0男17422.0男17516.0男17520.0男17521.0男17521.2男17522.0男17616.0男17619.0男17620.0男17622.0男17622.0男17721.0男17821.0男17821.
4、0男17822.5男17824.0男17921.5男17921.5男17923.0男18022.5男18121.1男18121.5男18123.0男18218.5男18221.5男18224.0男18321.2男18525.0男18622.0男19121.0男19123.0(1)根据上表中的数据,制成散点图。你能从散点图中发现身高与右手一拃长之间的近似关系吗?(2)如果近似成线性关系,请画出一条直线来近似地表示这种线性关系。(3)如果一个学生的身高是188cm,你能估计他的一拃大概有多长吗?解:根据上表中的数据,制成的散点图如下。从散点图上可以发现,身高与右手一拃长之间的总体趋势是成一直线,也
5、就是说,它们之间是线性相关的。那么,怎样确定这条直线呢?同学1:选择能反映直线变化的两个点,例如(153,16),(191,23)二点确定一条直线。同学2:在图中放上一根细绳,使得上面和下面点的个数相同或基本相同。同学3:多取几组点对,确定几条直线方程。再分别算出各个直线方程斜率、截距的算术平均值,作为所求直线的斜率、截距。同学4:我从左端点开始,取两条直线,如下图。再取这两条直线的“中间位置”作一条直线。同学5:我先求出相同身高同学右手一拃长的平均值,画出散点图,如下图,再画出近似的直线,使得在直线两侧的点数尽可能一样多。同学6:我先将所有的点分成两部分,一部分是身高在170 cm以下的,一
6、部分是身高在170 cm以上的;然后,每部分的点求一个“平均点”身高的平均值作为平均身高、右手一拃的平均值作为平均右手一拃长,即(164,19),(177,21);最后,将这两点连接成一条直线。同学7:我先将所有的点按从小到大的顺序进行排列,尽可能地平均分成三等份;每部分的点按照同学3的方法求一个“平均点”,最小的点为(161.3,18.2),中间的点为(170.5,20.1),最大的点为(179.2,21.3)。求出这三个点的“平均点”为(170.3,19.9)。我再用直尺连接最大点与最小点,然后平行地推,画出过点(170.3,19.9)的直线。同学8:取一条直线,使得在它附近的点比较多。在
7、这里需要强调的是,身高和右手一拃长之间没有函数关系。我们得到的直线方程,只是对其变化趋势的一个近似描述。对一个给定身高的人,人们可以用这个方程来估计这个人的右手一拃长。这是十分有意义的。课堂练习:第77页,练习A,练习B小结:通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。课后作业:第84页,习题2-3A第1(1)、2(1)题, 2.3.2两个变量的线性相关教学目标:经历用不同估算方法描述两个变量线性相关的过程。知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。教学重点:经历用不同估算方法描述两个变量线性相关的过程。知道最小二乘法的
8、思想,能根据给出的线性回归方程系数公式建立线性回归方程。教学过程:1回顾上节课的案例分析给出如下概念: (1)回归直线方程 (2)回归系数2最小二乘法3直线回归方程的应用 (1)描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变量间依存的数量关系 (2)利用回归方程进行预测;把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。 (3)利用回归方程进行统计控制规定Y值的变化,通过控制x的范围来实现统计控制的目标。如已经得到了空气中NO2的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中NO2的浓度。4应用直线回归的注意事项 (1)
9、做回归分析要有实际意义; (2)回归分析前,最好先作出散点图; (3)回归直线不要外延。5实例分析:某调查者从调查中获知某公司近年来科研费用支出()与公司所获得利润()的统计资料如下表:科研费用支出()与利润()统计表 单位:万元年份科研费用支出利润1998199920002001200220035114532314030342520合计30180要求估计利润()对科研费用支出()的线性回归模型。解:设线性回归模型直线方程为:因为: 根据资料列表计算如下表:年份1998199920002001200220035114532314030342520155440120170754025121162
10、59406-10-2-311004-5-100361049060001030合计3018010002000050100现利用公式()、()、()求解参数的估计值: 所以:利润()对科研费用支出()的线性回归模型直线方程为:6、求直线回归方程,相关系数和作图,这些EXCEL可以方便地做到。仍以上题的数据为例。于 EXCEL表 中的空白区,选用插入菜单命令中的图表,选中 XY散 点图类型,在弹出的图表向导中按向导的要求一步一步地 操作,如有错误可以返回去重来或在以后修改。适当修饰 图的大小、纵横比例、字体大小、和图符的大小等,使图 美观,最后得到图1,图中有直线称为趋势线,还有直线方程和相关系数。
11、图中的每一个部份如坐标、标题、图例 等都可以分别修饰,这里主要介绍趋势线和直线方程。 图1散点图 鼠标右键点击图中的数据点,出现一个对话框,选 添加趋势线 ,图中自动画上一条直线,再以鼠标右击此线,出现趋势线格式对话框,选择线条的粗细和颜色,在选项中选取显示公式和显示R 平方值,确定后即在图中显示回归方程和相关系数。课堂练习:第83页,练习A,练习B小结:经历用不同估算方法描述两个变量线性相关的过程。知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。课后作业:第84页,习题2-3A第1、2题,2.3.3实习作业教学目标:会用随机抽样的基本方法和样本估计总体的思想,解决一些
12、简单的实际问题;能通过对数据的分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异。教学重点:会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题;能通过对数据的分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异。教学过程:1课本86页案例设计一个题目2尝试解决下面的问题。(1)下面是关于吸烟情况的20个国家的统计数字,其中第一行是国名,第二行是男性吸烟成员的百分数,第三行是女性吸烟成员的百分数。韩国拉脱维亚俄罗斯多米尼加汤加土耳其中国泰国斐济日本68.267.067.066.365.063.061.060.059.359.06.
13、312.030.013.614.024.07.015.030.614.8美国巴基斯坦芬兰土库曼尼日利亚巴拉圭巴林新西兰瑞典巴哈马28.127.427.026.624.424.124.024.020.019.323.54.419.01.56.75.56.022.024.03.8根据以上数据,试研究这些国家吸烟状况的类似程度。问题(1)的分析: 要根据数据研究这些国家吸烟状况的类似程度,我们可以仅讨论男性的吸烟情况,首先确定一个划分类似的标准,不妨取1%,即当两个国家男性吸烟人数百分比之差小于1%时,将这两个国家称为类似的.则可分成下面九组:(1)韩国;(2)拉脱维亚,俄罗斯和多米尼加;(3)汤加
14、;(4)土耳其;(5)中国,泰国,斐济和日本;(6)美国;(7)巴基斯坦,芬兰和土库曼;(8)尼日利亚,巴拉圭,巴林和新西兰;(9)瑞典和巴哈马。对于女性吸烟的情况也可做类似的分析。如果我们要整体地讨论吸烟情况,我们应当怎样做呢?一个直接的想法就是考虑下面的平面图:以女性吸烟者的百分数为横轴,男性吸烟者的百分数为纵轴。(如下图所示)从图中可以看出,基本上分成下面四组:(1)巴哈马,巴基斯坦,巴拉圭,巴林,尼日利亚和土库曼斯坦;(2)芬兰,新西兰,瑞典和美国;(3)中国,日本,泰国,韩国,拉脱维亚,多米尼加和汤加;(4)土耳其,斐济和俄罗斯。这个过程叫做聚类分析,它的基本思想是:在一批样本数据中
15、,定义能度量样本数据或类别间相近程度的统计量,在此基础上计算出个样本数据或类别之间的相近程度度量值;再按相近程度的大小,把样本逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚集到一个大的分类单位,直到所有的样本数据都聚集完毕;最后把不同的类别一一划分出来,形成一个关系密疏图,并用以直观地显示分类对象的差异和联系。上例向我们展示了对数据进行的聚类分析的过程, 一般来说,进行聚类分析需要解决两个问题:一是如何确定度量两个数据的接近程度的方法;二是究竟分成多少类合适。这两个问题都需要根据实际问题的背景和数据本身的意义来确定。统计上对此提出了一套程序化的方法:(1)选择一种确定接近程度的方法,
16、最直接的就是点之间的距离,我们上面的分析即是基于此;(不同的方法将得到不同的分类结果)(2)设要分类的对象有n个;我们以这n个对象分成n类开始,按所选择的方法确定这n个对象两两的接近程度度量值,将最接近的两个对象合并为一类,如此我们得到了至多n-1类;(3)确定类与类之间接近程度的方法;(4)对n-1类重复步骤(2),如此下去到完全归为一类止。至于究竟分成多少类合适,需要分析者根据所讨论的问题来决定。在实际问题中,往往需要对几种分类方案进行比较后,再加以选择。(2)为了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外50位患者服用安慰剂,得到下列实验数据: 副作用药物有无合计新药
17、153550安慰剂44650合计1981100请问服用新药是否可产生副作用?问题(2)的分析:假定服用新药与产生副作用没有关联.那么,首先要给“没有关联”下一个“能够操作”的定义。根据直观的经验,在服用新药与产生副作用的情形下,这个定义可以是这样的:如果服用新药与产生副作用没有关联,就意味着,无论服用新药与否,产生副作用的概率都是一样的。就此例题而言:二者相差较大。由此可以推断,开始的假设是不成立的。也就是说,服用新药与产生副作用是有关联的。由统计的常识知道,要求等号成立是非常苛刻的条件,实际上一般也是办不到的,我们所能追求的是在概率意义下的可靠性。对于上面的独立性问题,类比在聚类分析讨论中的
18、想法,我们应当寻找一个适当的统计量,用它的大小来说明独立性是否成立。在统计中,我们引入下面的量 副作用B 药物A 有副作用B1无副作用B2合计新药A1安慰剂A2合计在前面的例子中a15,b35,c4,d46。注意到独立性要求:P(全体生实验者产生副作用)P(服用新药产生副作用)即 这等价于 因此,可以用的大小来衡量独立性的好坏。问题:(1)用是不是更好些?(2)用比用合理,你认为有道理吗?(3)为了得到统计量的近似的分布,统计学家最终选用了:Q2=用它的大小来衡量独立性的大小,你能把它化简得到下式吗?从上面的表达式可以直观地看出:的值越小,事件A与B之间的独立性将会越大(当的值为0时,事件A与B完全独立)。通过有关统计量分布的计算可知:当时,事件A与B在概率为95%的意义下是相关的;当时,事件A与B在概率为99%的意义下是相关的。我们来算一算本题中的值:于是得出结论:在概率为99%的意义下,服用新药与产生副作用是相关联的。从数据可以进一步看出,服用新药更容易产生副作用。上述过程在统计推断叫做独立性检验,它的基本思想是:如何选用一个标准,用它来衡量事件之间的独立性是否成立。在独立性检验中,我们要特别关注方法的直观及合理性。