第7课时线性回归分析与统计案例.docx
- 文档编号:9614707
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:18
- 大小:292.85KB
第7课时线性回归分析与统计案例.docx
《第7课时线性回归分析与统计案例.docx》由会员分享,可在线阅读,更多相关《第7课时线性回归分析与统计案例.docx(18页珍藏版)》请在冰豆网上搜索。
第7课时线性回归分析与统计案例
第7课时线性回归分析与统计案例
1甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数
r如下表:
甲
乙
丙
丁
r
—0.82
—0.78
—0.69
—0.85
则哪位同学的试验结果体现A,B两变量有更强的线性相关性()
A.甲B.乙
C.丙D.丁
答案D
2.(2018湖北七市联考)广告投入对商品的销售额有较大影响•某电商对连续5个年度的广告费x和销售额y
进行统计,得到统计数据如下表(单位:
万元):
广告费x
2
3
4
5
6
销售额y
29
41
50
59
71
由上表可得回归方程为y=io.2x+a,据此模型,预测广告费为io万元时销售额约为()
A.101.2万元
C.111.2万元
答案C
B.108.8万元
D.118.2万元
一1一1A
解析根据统计数据表,可得x=-x(2+3+4+5+6)=4,y=-x(29+41+50+59+71)=50,而回归直线y
55
=10.2x+a经过样本点的中心(4,50),•••50=10.2X4+;,解得;=9.2,二回归方程为b=10.2x+9.2,二当x
=10时,y=10.2X10+9.2=111.2,故选C.
3.(2018赣州一模)以下四个命题:
1从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分
层抽样;
2两个随机变量相关性越强,则相关系数的绝对值越接近于1;
3在回归直线方程y=0.2x+12中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位;
4分类变量X与Y,对它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.
其中真命题为()
A.①④
B.②④
C.①③
答案D
D.②③
解析①为系统抽样;④分类变量X与Y,对它们的随机变量K2的观测值k来说,k越大,“X与Y有关系
的把握程度越大.
4.下面是一个2X2列联表
y1
y2
总计
其中a,b处填的值分别为()
A.9472
C.5274
X1
a
21
73
X2
22
25
47
合计
b
46
120
B.5250
D.7452
答案C
解析由a+21=73,得a=52,a+22=b,得b=74•故选C.
5.(2018湖南衡阳联考)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析
方法分别求得相关系数r与残差平方和m,如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A,B两变量有更强的线性相关性()
A.甲B.乙
C.丙D.丁
答案D
解析r越大,m越小,线性相关性越强.故选D.
6.(2018衡水中学调研)以下四个命题中,真命题是()
A•对分类变量x与y的随机变量K2的观测值k来说,k越小,判断“x与y有关系”的把握程度越大
B.两个随机变量的线性相关性越强,相关系数的绝对值越接近于0
C.若数据X1,X2,X3,…,Xn的方差为1,则2X1,2X2,2X3,…,2Xn的方差为2
D.在回归分析中,可用相关指数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好
答案D
解析对于A,对分类变量x与y的随机变量K2的观测值k来说,k越大,判断“x与y有关系”的把握程度越大,故A错误;对于B,两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故B错误;对
于C,若数据X1,X2,X3,…,Xn的方差为1,则2X1,2x2,2x3,…,2Xn的方差为4,故C错误;对于D,
根据离散变量的线性相关及相关指数的有关知识可知D正确.
7.2015年年度史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》.某记者调查了大量《芈
月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在[10,14],[15,19],[20,24],[25,
29][30,34]的爱看比例分别为10%,18%,20%,30%,t%.现用这5个年龄段的中间值代表年龄段,女口12代
表[10,14],17代表[15,19],根据前四个数据求得爱看比例y关于x的线性回归方程为y=(kx—4.68)%,由
此可推测t的值为()
A.33B.35
C.37D.39
答案B
1解析依题意,X=:
x(12+17+22+27)=19.5,
4
1y=(10%+18%+20%+30%)=19.5%,
&(2018广西南宁月考)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下列联表:
偏爱蔬菜
偏爱肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
则可以说其亲属的饮食习惯与年龄有关的把握为()
附:
k2=(a+b)(n+d)d—(ba+c)(b+d)■
2
P(K>k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.90%B.95%
D.99.9%
C.99%
答案C
属的饮食习惯与年龄有关.
9.2017世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城市入选,美丽的黄山风景和人文
景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在黄山旅
游节期间,随机抽取了100人,得如下所示的列联表:
赞成“自助游”
不赞成“自助游”
合计
男性
30
15
45
女性
45
10
55
合计
75
25
100
参照公式,得到的正确结论是()
A•有99.5%以上的把握认为“赞成‘自助游’与性别无关”
B.有99.5%以上的把握认为“赞成‘自助游’与性别有关”
C.在犯错误的概率不超过0.1的前提下,认为“赞成’自助游’与性别无关”
D•在犯错误的概率不超过0.1的前提下,认为“赞成’自助游’与性别有关”参考公式:
K2=“j:
d~~,其中n=a+b+c+d.
(a+b)(c+d)(a+c)(b+d)'
2
P(K>k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
•••在犯错误的概率不超过0.1的前提下,可以认为“赞成’自助游’与性别有关
10•某研究机构对高三学生的记忆力
X
6
8
10
12
y
2
3
5
6
x和判断力y进行统计分析,所得数据如下表:
B•y=2.3x+0.7
则y对x的线性回归直线方程为(
A•y=2.3x—0.7
C.y=0.7x—2.3D.y=0.7x+2.3
n
y君xiy—nxyyy
(相关公式:
b=—n,a=y—bx)
Exi2—nx2
i=1
(四舍五入到整数).
答案C
答案73
所以66=0.36X70+a,解得a=40.8.
所以0.36X90+40.8=73.2~73.
12.某工厂为了对一种新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
4
5
6
7
8
9
销量y(件)
90
84
83
80
75
68
由表中数据,求得线性回归方程为y=—4x+a.若在这些样本点中任取一点,则它在回归直线左下方的概率为
1
答案3解析由表中数据得x=6.5,y=80,由y=—4x+彳,得a=106,故线性回归方程为y=-4x+106•将(4,90),
(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程,可知有6个基本事件,因84<—4X5+106
21
=86,68<—4X9+106=70,故(5,84)和(9,68)在直线的左下方,满足条件的只有2个,故所求概率为-=-.
63
13.已知某学校的特长班有50名学生,其中有体育生20名,艺术生30名,在学校组织的一次体检中,该班
所有学生进行了心率测试,心率全部介于50次/分到75次/分之间,现将数据分成五组,第一组[50,55),第
二组[55,60),…,第五组[70,75],按上述分组方法得到的频率分布直方图如图所示.因为学习专业的原因,
8名.
2
P(K>k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
答案
(1)见解析
(2)有关
解析
(1)根据频率分布直方图可知,前两组的学生总数为(0.032+0.08)X5X50=10,又前两组的学生中体育
生有8名,所以前两组的学生中艺术生有2名,故2X2列联表如下:
14.(2018山东日照一模)某学校高三年级有学生500人,其中男生300人,女生200人.为了研究学生的数学
体育生常年进行系统的身体锻炼,艺术生则很少进行系统的身体锻炼,若前两组的学生中体育生有
成绩是否与性别有关,现采用分层抽样的方法,从中抽取了100名学生,先统计了他们期中考试的数学分数,
然后按性别分为男、女两组,再将两组学生的分数分成5组:
[100,110),[110,120),[120,130),[130,140),
[140,150]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中分数低于110分的学生中随机抽取两人,求这两人恰好为一男一女的概率;
(2)若规定分数不低于130分的学生为“数学尖子生”,请你根据已知条件完成2X2列联表,并判断是否有90%的把握认为“数学尖子生与性别有关”.
2
附:
k2=n(ad—be)
附(a+b)(e+d)(a+e)(b+d)
P(K2>k°)
0.10
0.05
0.010
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
答案
(1)3⑵有关
5
解析
(1)由已知得,抽取的100名学生中,男生60名,女生40名.
分数低于110分的学生中,男生有60X0.05=3(人),记为A1,A2,A3;女生有40X0.05=2(人),记为B-
B2.
从中随机抽取两名学生,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,
B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2)(B1,B2);
其中两名学生恰好为一男一女的可能结果共有6种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,
B1),(A3,B0.
•••所求概率为p=詈|.
⑵由频率分布直方图可知,在抽取的100名学生中,分数不低于130分的男生人数为60X0.25=15,分数不
低于130分的女生人数为40X0.4=16,据此可得2X2列联表如下:
数学尖子生
非数学尖子生
合计
男生
15
45
60
女生
16
24
40
合计
31
69
100
2
60X40X31X69
...k2=100X(15X24二16X45)"2.525<2.706,•••没有90%的把握认为“数学尖子生与性别有关
15.(2017四川广元二诊)某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研
究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下
资料:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x(C)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该农科所确定的研究方案是:
先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的
2组数据进行检验.
(1)求选取的2组数据恰好是不相邻两天数据的概率;
⑵若选取的是12月1日与12月5日的数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程y=bx+a;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗•则认为得到的线性回归方程
是可靠的•试问
(2)中所得到的线性回归方程是可靠的吗?
b—:
*a—y—b元
附:
回归直线的斜率和截距的最小二乘估计公式分别为:
3a5
答案
(1)5
(2)y=|x-3⑶可靠
解析
(1)设“选取的2组数据恰好是不相邻两天的数据”为事件A.
从5组数据中选取2组数据共有10种情况:
(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5),其中数据为12月份的日期数.
每种情况都是等可能出现的,事件A包括的基本事件有6种.
♦p(A)=器3.
•••选取的2组数据恰好是不相邻两天数据的概率是3.
5
a(11—12)X(25—27)+(13—12)X(30—27)+(12—12)X(26—27)5b=(11—12)2+(13—12)2+(12—12)2=2,
A————5
a=y—bx=27—5X12=—3.
•y关于x的线性回归方程为y=;x—3.
⑶当x=10时,y=|x10—3=22,|22—23|<2;
a5
同理,当x=8时,y=,X8—3=17,|17—16|<2.
•
(2)中所得到的线性回归方程是可靠的.
16.(2018河北唐山模拟)某市春节期间7家超市的广告费支出xi(万元)和销售额yi(万元)数据如下:
超市
A
B
C
D
E
F
G
广告费支出Xj
1
2
4
6
11
13
19
销售额yi
19
32
40
44
52
53
54
⑴若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;
⑵用二次函数回归模型拟合y与x的关系,可得回归方程:
yA=-0.17x2+5x+20,经计算二次函数回归模
型和线性回归模型的R2分别约为0.92和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超
市广告费支出3万元时的销售额.
n
772ajt/iyi-n-yaa
参考数据及公式:
x=8,y=42,12xiyi=2794,12xi=708,b=n,a=y—bx.
i=1'i=1厂22
txi—nx
i=1
答案
(1)y=1.7x+28.4
(2)33.47
7
…一ait1Xiyi—7'xy2794一7X8X42aa
解析
(1)b=■=—;8。
2—=1.7,a=y—bx=42—1.7X8=28.4.
tXi2—7x2708—7X8
i=1
•••y关于X的线性回归方程是y=1.7x+28.4.
⑵•/0.75<0.92,•二次函数回归模型更合适.
当X=3万元时,y=—0.17X9+5X3+20=33.47,预测A超市销售额为33.47万元.
备选题
1•设两个变量X和y之间具有线性相关关系,它们的相关系数是r,y关于X的回归直线的斜率是b,纵截距
是a,那么必有()
A.b与r的符号相同B.a与r的符号相同
C.b与r的符号相反D.a与r的符号相反
答案A
2.下列说法:
1将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
2设有一个回归方程y=3—5x,变量X增加一个单位时,y平均增加5个单位;
3回归直线y=£x+a必过点(一,一);
4在一个2X2列联表中,由计算得K2的观测值k=13.079,则在犯错误的概率不超过0.001的前提下认为这
两个变量间有关系.其中错误的个数是()
A.0B.1
C.2D.3
本题可以参考独立性检验临界值表:
P(K2>k)
0.5
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
答案B
解析只有②错误,应该是y平均减少5个单位.
3.(2018湖南衡阳模拟)根据“2015年国民经济和社会发展统计公报”中公布的数据,从2011年到2015年,
4.
我国的第三产业在GDP中的比重如下:
年份
2011
2012
2013
2014
2015
年份代码x
1
2
3
4
5
第三产业比重y/%
44.3
45.5
46.9
48.1
50.5
(1)在所给坐标系中作出数据对应的散点图;
⑵建立第三产业在GDP中的比重y关于年份代码x的回归方程;
O]23456-V
5
A君(X—x)(y—y)15一AA
(2)x—3,y—47.06,b—5——1.5,a—y—bx—42.56,
占(xi-x)210
所以回归直线方程为y—1.5x+42.56.
⑶代入2018年的年份代码x—8,得y—1.5X8+42.56—54.56,
所以按照当时的变化趋势,预计到2018年,我国第三产业在GDP中的比重将达到54.56%.
5.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如以下的统计数据;
x(年)
2
3
4
5
6
y(万元)
2.2
3.8
5.5
6.5
7.0
已知£土=90・工¥=110.呂.工rfy=]12,3*
Al1'i™1
⑴求x,y;
(2)对x,y进行线性相关性检验;
(3)如果x与y具有线性相关关系,求出回归直线方程;
⑷估计使用年限为10年时,维修费用约是多少?
答案⑴x=4,y=5
(2)略(3)y=1.23x+0.08(4)12.38万元
⑵因为斗眄加_円=112.3-5X1X5=12.3,
£并一5工=SW—5X16=10,
J—1
^3^-57=140,8-125=15.8,
1
因为0.987>0.75,所以x与y之间具有很强的线性相关关系.
r工巧头_5r17s
⑶因为卄=匚=十于=1.23皿=y~h亍=
S-L23X1-0.08.所以所求的回归直线方程为$=h23^0.08.
12.38万元.
⑷当x=10时,y=1.23X10+0.08=12.38,即估计使用年限为10年时,维修费用约为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 课时 线性 回归 分析 统计 案例