线性回归与相关性分析Word文件下载.docx
- 文档编号:20755724
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:11
- 大小:33.84KB
线性回归与相关性分析Word文件下载.docx
《线性回归与相关性分析Word文件下载.docx》由会员分享,可在线阅读,更多相关《线性回归与相关性分析Word文件下载.docx(11页珍藏版)》请在冰豆网上搜索。
对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;
研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析;
3、相关性分析是考察两个变量之间线性关系的一种统计分析方法。
更精确地说,当一个变量发生变化时,另一个变量如何变化,此时就需要通过计算相关系数来做深入的定量考察。
P值是针对原假设H0:
假设两变量无线性相关而言的。
一般假设检验的显著性水平为0.05,你只需要拿p值和0.05进行比
较:
如果p值小于0.05,就拒绝原假设H0,说明两变量有线性相关的关系,他们无线性相关的可能性小于0.05;
如果大于0.05,则一般认为无线性相关关系,至于相关的程度则要看相关系数R值,r越大,说明越相关。
越小,则相关程度越低。
而偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程,其检验过程与相关分析相似;
4、对于两个相关变量,一个变量用x表示,另一个变量用y表示,如果通过试验或调查获得两个变量的n对观测值:
(x1,yl),(x2,y2),,(xn,yn);
为了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图;
5、从散点图可以看出:
①两个变量间有关或无关;
若有关,两个变量间关系类型,是直线型还是曲线型;
②两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);
散点图直观地、定性地表示了两个变量之间的关系。
为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来;
6、利用直线回归方程进行预测或控制时,一般只适用于原来研究的范
围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。
若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。
利用直线回归方程进行预测或控制,一
般只能内插,不要轻易外延;
7、进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量——相关系数r并进行显著性检验;
8、根据实际观测值计算得来的相关系数r是样本相关系数,它是双变
量正态总体中的总体相关系数P的估计值。
样本相关系数r是否来自pH0的总体,还须对样本相关系数r进行显著性检验。
此时无效假设、备择假设为:
H0:
p=O,HA:
pH0。
与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验;
9、直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求
它们之间的联系形式一直线回归方程;
直线相关分析不区分自变量和依变量,
侧重于揭示它们之间的联系程度和性质一一计算出相关系数。
两种分析所进行
的显著性检验都是解决y与x间是否存在直线关系。
因而二者的检验是等价的。
即相关系数显著,回归系数亦显著;
相关系数不显著,回归系数也必然不显著;
10、应用直线回归与相关的注意事项:
直线回归分析与相关分析在生物
科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出
错误的解释。
为了正确地应用直线回归分析和相关分析这一工具,必须注意以
下几点:
1)、变量间是否存在相关;
2)、其余变量尽量保持一致;
3)、观测值要尽可能的多;
4)、外推要谨慎;
5)、正确理解回归或相关显著与否的含义;
6)、一个显著的回归方程并不一定具有实践上的预测意义;
(四)、实验内容:
内容:
生物统计学(第四版)138页第七章习题7.4和习题7.6
实验方法步骤
(一)、习题7.4
1、启动spss软件:
开始—所有程序—SPS4spssforwindowLspss18.0for
windows,直接进入SPSS数据编辑窗口进行相关操作;
2、定义变量,输入数据。
点击“变量视图”定义变量工作表,用“name
命令定义变量“X”(小数点零位),标签:
“4月下旬平均气温/C”;
变量“Y”
(小数点零位),标签:
“5月上旬50株棉蚜虫数/头”,点击“变量视图工作表”,一一对应将不同“X”气温与“Y'
棉蚜虫数的数据依次输入到单元格中;
3、设置分析变量。
数据输入完后,点菜单栏:
“分析(A)”一“回归(旦)”-“线性(.)•••”,将“5月上旬50株棉蚜虫数(丫)”移到因变量列表(D)中,将“4月下旬平均气温(X)”移入自变量列表(I)中进行分析;
1)、点“统计量(S)”,回归系数:
在“估计(E)”、“置信区间水平(%)95”前打钩,“模型拟合性(M)、“描述性”前打钩,残差:
个案诊断(C)前打钩,点“所有个案”,点“继续”;
2)、点“绘制(T)•••”,将“DEPENDNP”移入“丫(丫)”列表中,将“ZPRED”移入“X2(X)中,标准化残差图:
在“直方图(H)”、“正太概率图(R)”前打钩,点“继续”;
3)、点“保存(S)…”,所有的默认,点“继续”;
4)、点“选项(0)…”,所有的都默认,点“继续”,然后点击“确定”便出结果;
统计量(S)
绘制(T)
保存(S)-(默认)
(二八习题7.6
1、启动spss软件:
2、定义变量,输入数据。
命令定义变量“维生素C的含量”(小数点两位);
变量“受冻情况”(小数点零位),“未受冻”赋值为“1”,“受冻”赋值为“2”,点击“变量视图工作表”,一一对应将不同“未受冻”与“受冻”的维生素C的含量数据依次输入到单元格中;
“分析(A)”—“相关(C)”—“双变量(旦)•••”,将“维生素C含量”、“受冻情况”变量(V)列表中,相关系数:
“Pearson"
前打钩,显著性检验:
双侧检验(T)前打钩,“标记显著性相关
(F)前打钩”,点“选项(0)…”,统计量:
在“均值和标准差(M)”前打钩,缺失值:
在“按对排除个案(P)”前打钩,点“继续”,然后点击“确定”便出结果。
选项(0
“图形(G)”—“旧对话框(L)”—“散点/点状(S
散点图/点图
简单散点图
4、表格绘制出来后,进行检查修改,将其复制到实验报告中,将虚框隐藏
1;
5、将所求的描述性统计指标数据表格保存,对其所求得的结果进行分析,书写实验报告。
(五)实验结果:
回归
表1
描述性统计量
均值
标准偏差
N
5月上旬棉蚜虫数
4月下旬平均气温
56.64
18.855
57.113
2.6819
11
相关性
5月上旬棉蚜虫
4月下旬平均气
数
温
Pearson相关性5月上旬棉蚜虫数
1.000
.858
Sig.(单侧)5月上旬棉蚜虫数
.000
Anova
输入/移去的变量b
模型
输入的变量
移去的变量
方法
1
4月下旬平均
气温
输入
a.已输入所有请求的变量。
b.因变量:
模型汇总b
R
R方
调整R方
标准估计的误
差
a
.737
.707
30.903
a.预测变量:
(常量),4月下旬平均气温。
平方和
df
均方
F
Sig.
24023.684
25.156
.001a
残差
8594.862
9
954.985
总计
32618.545
10
b
系数a
非标准化系数
标准系数
t
B的95.0%置信区间
B
标准误差
试用版
下限
上限
1(常量)
-287.943
69.331
-4.153
.002
-444.780
-131.106
18.276
3.644
5.016
.001
10.033
26.518
a.因变量:
残差统计量
极小值
极大值
预测值
20.92
198.19
49.014
-49.122
52.705
29.317
标准预测值
-.729
2.888
标准残差
-1.590
1.706
.949
案例诊断
案例数目
.687
86
64.78
21.223
2
-.038
197
-1.190
3
-1.128
8
42.85
-34.847
4
-.034
29
30.05
-1.054
5
-.126
28
31.88
-3.881
6
.067
23
2.084
7
12
61.12
-.815
14
39.19
-25.191
1.039
64
32.119
.231
50
7.153
112
59.29
图表
因变朮5月上旬W*数
^13=6.11E叭书昨=0^49
N-11
回,I标准化疑差
回闩标准化残差的标准P-P图
O
期重的累积K率
敵点图
表9
标准差
维生素C含量
34.0553
4.94321
32
受冻情况
1.50
.508
表10
维生素c含量
Pearson相关性
.192
显著性(双侧)
.293
45.00-
4000-
30.00H
800
2§
00^
20.0CT
IIIIII
101.21.41.6182.0
受廉情况
实验结果分析:
习题7.4:
由表4得出:
拟合优度系数为0.858,接近1,说明拟合好。
存在多重线性。
由表6得,回归方程的p值<0.05,说明显著线性。
回归系数p值<0.05,说明显著线性。
(1)、线性回归方程:
Y=-287.943+18.276X;
(2)、sy/x=29.4143,F=28.510**;
(3)y/x的95%置信区间:
(22.1998,61.4500),单个y的95%置信区间:
(—26.5856,110.2354);
习题7.6:
从实验结果可以得出:
(1)、相关系数与决定系数分别为:
r仁0.5930,r2=0.3516,
(2)、r的95%置信区间:
(0.1378,0.8414)。
r=0.5930,r2=0.3516,r的95%置信区间:
(0.1378,0.8414)。
(六)、实验总结分析:
1、相关性分析是考察两个变量之间线性关系的一种统计分析方法,利用直
线回归方程进行预测或控制,一般只能内插,不要轻易外延;
2、直线回归相关分析的注意事项:
1)、相关分析只是以相关系数来描述两个变量间线性相关的程度和方向,并不阐明事物间存在联系的本质,也不是两事物间存在联系的证据。
要阐明两事物间的本质联系,必须凭专业知识从理论上加以论证。
因此,把两个毫无关系的事物放在一起作相关分析是毫无意义的。
同样,作回归分析也要有实际意义;
2)、在进行直线回归前应绘制散点图,有直线趋势时,才适宜作直线回归分析。
散点图还能提示资料有无异常点;
3)、直线回归方程的适用范围一般以自变量的取值范围为限;
4)、对同一组资料作回归和相关分析,其相关系数和回归系数的显著性检验结果完全相同。
由于相关系数的显著性检验结果可直接查表,比较方便;
而回归系数的显著性检验计算复杂,故在实际应用中常用相关系数的显著性检验结果代替回归系数的显著性检验。
5)、在资料要求:
相关分析要求两个变量服从双变量正态分布。
回归分析要求因变量服从正态分布,自变量可以是精确测量和严格控制的变量。
如两个变量服从双变量正态分布,则可以作两个回归方程,用X推算丫,或用丫推算X;
3、相关分析中,不区分自变量和因变量。
相关分析只研究两个变量之间线
性相关的程度或一个变量与多个变量之间线性相关的程度,不能用一个或多个变量
去预测另一个变量的值,这是回归分析与相关分析的主要区别;
4、通过此次实验,更加熟悉了SPSS软件的应用,学习了线性回归与相关性分析,考察两变量之间线性关系,建立回归方程,并对回归系数作假设检验;
计算
相关系数和决定系数,并对其检验等。
教师评语及评分:
签名:
年月日
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 相关性 分析