人均生活能源消费量统计分析.docx
- 文档编号:27508158
- 上传时间:2023-07-02
- 格式:DOCX
- 页数:24
- 大小:46.66KB
人均生活能源消费量统计分析.docx
《人均生活能源消费量统计分析.docx》由会员分享,可在线阅读,更多相关《人均生活能源消费量统计分析.docx(24页珍藏版)》请在冰豆网上搜索。
人均生活能源消费量统计分析
2013年人均生活能源消费量统计分析
2013StatisticalAnalysisofpercapitaenergyconsumption
院系数学科学学院
专业应用统计
年级2015级
学号2150502012
论文作者杨月
完成日期2016.2.12
中文摘要
本篇论文主要是研究2013年人均能源生活消费量,数据来自2013年统计年鉴8-13.
能源是我们生活中必不可少的物质,能源的发展也让我们的生活变的日新月异,但是能源的使用和环保等息息相关,本篇文章的数据就是研究从1983年到2011年这29年里各种能源使用的人均情况,通过使用线性模型统计方法,我们可以了解到这近30年里我国的生活能源人均使用情况,也可以帮助我们进一步了解,预测未来的生活能源人均使用情况。
关键词
生活能源,线性统计模型,方差分析,主成分分析
Abstract
Thispaperistostudythe2013percapitaenergyconsumptionoflife,datafromthe2013StatisticalYearbook8-13.
Energyisessentialtoourlivesmatter,energydevelopmentalsoallowsustochangethelivesofever-changing,buttheuseofenergyandenvironmentalprotectionarecloselyrelated,thisarticleistostudythedatafrom1983to2011that29yearseachpercapitaenergyuseinthecaseofspecies,byusingalinearmodelofstatisticalmethods,wecanunderstandthatourlifeenergyusepercapitaofnearly30years,canalsohelpustofurtherunderstand,anticipatefuturelifeenergyusepercapita.
Keywords
Lifeenergy,linearstatisticalmodel,varianceanalysis,
principalcomponentanalysis
目录
第一章多元回归分析5
1.1数据相关性分析5
1.2多元线性回归方程的建立9
1.3建立“最优”方程11
第二章方程的诊断及预测13
2.1模型的回归诊断13
2.2结果预测18
2.3复共线性检验19
第三章方差分析检验21
3.1单因子方差分析21
3.2正态性检验24
第四章主成分分析25
第五章结论27
参考文献28
第一章多元回归分析
1.1数据相关性分析
先阐述每个变量的实际意义:
Y:
平均每人生活消费能源(千克标准煤)
X1:
煤炭(千克)X2:
电力(千瓦小时)
X3:
煤油(千克)X4:
液化石油气(千克)
X5:
天然气(立方米)X6:
煤气(立方米)
首先来绘制
与各自变量之间的散点图:
从图上可以直观看出,在第2,4,5,6个图中数据点分布比较有规律,初步推测存在正相关关系;1,3两个图形的规律看起来不太像是简单的线性关系,所以还需要后边进一步的讨论与分析.
1.2多元线性回归方程的建立
下面将要利用R程序和线性统计模型的思想,来确立各个变量之间的函数关系:
Y=a+bX1+cX2+dX3+eX4+fX5+gX6
R程序:
mydata<-read.table("renjun.txt",header=T)
mydata###输入数据
X1<-mydata$x1;X2<-mydata$x2;X3<-mydata$x3;X4<-mydata$x4
X5<-mydata$x5;X6<-mydata$x6;Y<-mydata$y
shuju<-data.frame(Y,X1,X2,X3,X4,X5,X6)
lm.reg<-lm(Y~X1+X2+X3+X4+X5+X6,data=shuju)
summary(lm.reg)
###运行结果###
Call:
lm(formula=Y~X1+X2+X3+X4+X5+X6,data=shuju)
Residuals:
Min1QMedian3QMax
-7.516-1.0220.6351.5124.015
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)
(Intercept)-10.997668.28858-1.3270.19817
X10.861500.0451719.0733.58e-15***
X20.485740.057548.4422.39e-08***
X3-2.243713.52397-0.6370.53089
X42.618520.790073.3140.00315**
X5-0.494650.89031-0.5560.58410
X60.489260.592470.8260.41778
---
Signif.codes:
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
Residualstandarderror:
2.652on22degreesoffreedom
MultipleR-squared:
0.9978,AdjustedR-squared:
0.9972
F-statistic:
1671on6and22DF,p-value:
<2.2e-16
###结果分析###
回归方程为Y=-10.99766+0.86150X1+0.48574X2-2.24371X3+2.61852X4-0.49465X5+0.48926X6
由每个自变量后边的P值可知,回归方程和回归系数的检验并不都是显著的
其中X1,X2,X4是显著的,其他变量的显著性不高
所以下面就涉及到变量选择的问题,以建立”最优“的回归方程.
1.3建立“最优”方程
由上面的运行结果可知,对于六个自变量的模型,每个系数的检验并不都是很显著,6个变量中有3个变量并不显著.
那么为了更好的研究这组数据,我们需要建立更好的方程,下面利用逐步回归法建立“最优”方程
R程序:
lm.step<-step(lm.reg)
lm.step
###运行结果###
>lm.step<-step(lm.reg)
Start:
AIC=62.55
Y~X1+X2+X3+X4+X5+X6
DfSumofSqRSSAIC
-X512.17156.8660.953
-X312.85157.5461.079
-X614.79159.4861.435
-X4177.23231.9272.294
-X21501.07655.76102.436
-X112557.892712.58143.612
Step:
AIC=60.95
Y~X1+X2+X3+X4+X6
DfSumofSqRSSAIC
-X314.1161.059.704
-X616.9163.860.206
-X41132.5289.476.710
-X112625.42782.3142.348
-X219644.59801.4178.866
Step:
AIC=59.7
Y~X1+X2+X4+X6
DfSumofSqRSSAIC
-X6111.5172.559.703
-X41152.7313.677.048
-X112635.92796.9140.500
-X219641.29802.2176.869
Step:
AIC=59.7
Y~X1+X2+X4
DfSumofSqRSSAIC
-X41275.5447.985.384
-X113524.93697.3146.594
-X2110038.910211.3176.055
>lm.step
Call:
lm(formula=Y~X1+X2+X4,data=shuju)
Coefficients:
(Intercept)X1X2X4
-8.90990.83450.45693.4102
###结果分析###
我们已知建立更好的回归方程的时候,观察AIC的值,AIC的值越小越好
通过上面运行得出的结果可知,当所有的自变量都保留的时候,AIC的值最小,此时最优回归方程为Y=-8.9099+0.8345X1+0.4569X2+3.4102X4
第二章方程的诊断及预测
2.1模型的回归诊断
在初步建立回归方程的时候我们观察到:
6个变量中,X1,X2和X4的系数是检验显著的,在利用逐步回归方法建立更好的回归模型之后,发现6个变量中只剩下了这三个变量,可见我们的结果应该是正确的。
那么下面我们来进行回归诊断,通过作图看看这个新的方程模型的残差,标准化残差的情况.
R程序:
y.res<-residuals(lm.reg)###计算残差
print(y.res)
y.rst<-rstandard(lm.reg)###计算标准化残差
print(y.rst)
y.fit<-predict(lm.reg)###计算预测值
op<-par(mfrow=c(1,2))###将两张三点残差图一并输出
plot(y.res~y.fit)
plot(y.rst~y.fit)
par(op)
###运行结果###
>y.res<-residuals(lm.reg)###计算残差
>print(y.res)
1234567
1.51199171.8344901-0.8076105-1.0348938-1.3846500-0.98667860.2281957
891011121314
0.79719160.18353084.01538651.29328821.3755242-7.51591900.7758898
15161718192021
-2.7306781-4.1197411-0.14370931.05074890.6417496-1.02247661.7480140
22232425262728
2.91751122.59418571.6793161-2.54544082.0022101-0.1874719-2.8049657
29
0.6350112
>y.rst<-rstandard(lm.reg)###计算标准化残差
>print(y.rst)
123456
0.640992850.81548394-0.32773615-0.43511961-0.56564910-0.41264731
789101112
0.094308660.322824800.075458921.674622190.550128740.57564952
131415161718
-3.296457470.33623619-1.09061227-1.70358633-0.058672280.44256993
192021222324
0.26640928-0.418175100.696009661.366445391.102857940.72534362
2526272829
-1.142223300.84740761-0.12032898-1.490691480.52974989
从残差---标准化残差图像中可以看到残差的范围大概在-6到+4之间,标准化残差的范围大概在-3到+1之间,这个范围稍微有点大,下面我们应用模型更新来缩小残差的范围.
R程序:
lm.new_reg<-update(lm.step,sqrt(.)~.)
summary(lm.new_reg)
###运行结果###
Call:
lm(formula=sqrt(Y)~X1+X2+X4,data=shuju)
Residuals:
Min1QMedian3QMax
-0.28146-0.079420.018080.086560.26224
Coefficients:
EstimateStd.ErrortvaluePr(>|t|)
(Intercept)5.54583340.297070518.6683.41e-16***
X10.03547520.001983117.8899.23e-16***
X20.01542760.000643423.979<2e-16***
X40.20362790.02898907.0242.31e-07***
---
Signif.codes:
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
Residualstandarderror:
0.1411on25degreesoffreedom
MultipleR-squared:
0.9949,AdjustedR-squared:
0.9943
F-statistic:
1624on3and25DF,p-value:
<2.2e-16
###结果分析###
更新之后的模型各个系数的显著性很高,新的回归方程为Y=5.5458334+0.0354752X1+0.0154276X2+0.2036279X6
下面进行更新后的模型的回归诊断:
R程序:
y.res<-residuals(lm.new_reg)###计算残差
print(y.res)
y.rst<-rstandard(lm.new_reg)###计算标准化残差
print(y.rst)
y.fit<-predict(lm.new_reg)###计算预测值
op<-par(mfrow=c(1,2))###将两张三点残差图一并输出
plot(y.res~y.fit)
plot(y.rst~y.fit)
par(op)
###运行结果###
由图像可以看出,新模型的残差图有很大改善,残差都控制在[-0.3,0.2],残差控制在[-2,2]
可以认为没有异常点.
2.2结果预测
检验一个方程是否符合原数据的一个重要方法就是检验某组数的预测值并和真实值作比较;通过比较预测值和真实值之间的差距可以看出该方程是否比较合理.
R程序:
point<-data.frame(x1=143.0,x2=47.2,x4=1.8)
lm.pred<-predict(lm.step,point,interval="prediction",level=0.95)
lm.pred
###运行结果###
fitlwrupr
1137.9839132.3141143.6537
###结果分析###
当x1=143.0,x2=47.2,x4=1.8时,预测出的Y值为137.9839,预测区间为[132.3141,143.6537],而真实值是139.2,可见这个方程还是很符合实际数据的,所以可以用这个模型来预测接下来年份的生活能源人均消费量
2.3复共线性检验
经过前面的分析过程之后,我们已经得到一个比较好的模型:
Y=-8.9099+0.8345X1+0.4569X2+3.4102X4;所以下面进行复共线性检验的时候我们利用最开始建立的初步模型,即:
Y=-10.99766+0.86150X1+0.48574X2-2.24371X3+2.61852X4-0.49465X5+0.48926X6
R程序:
shuju<-data.frame(Y,X1,X2,X3,X4,X5,X6)
lm.reg<-lm(Y~X1+X2+X3+X4+X5+X6,data=shuju)
x<-cbind(X1,X2,X3,X4,X5,X6)
correlation<-cor(x,x);correlation
eigen(correlation)
kappa(correlation)
###运行结果###
>correlation<-cor(x,x);correlation
X1X2X3X4X5X6
X11.0000000-0.72055570.8545643-0.8913537-0.5745178-0.9258082
X2-0.72055571.0000000-0.83780960.91621290.97032310.8703924
X30.8545643-0.83780961.0000000-0.9262118-0.7167230-0.9288988
X4-0.89135370.9162129-0.92621181.00000000.80379270.9688594
X5-0.57451780.9703231-0.71672300.80379271.00000000.7457311
X6-0.92580820.8703924-0.92889880.96885940.74573111.0000000
>eigen(correlation)
$values
[1]5.2293901640.5742543410.1221721860.0451962260.0256643720.003322711
$vectors
[,1][,2][,3][,4][,5][,6]
[1,]0.3887585-0.532311820.53204734-0.514007750.12728430-0.04507026
[2,]-0.4147224-0.41265066-0.06339228-0.03642609-0.055871060.80576531
[3,]0.4120161-0.20585491-0.82486550-0.325721100.023424210.02864363
[4,]-0.43072440.08173287-0.03322796-0.58039907-0.63709502-0.25286168
[5,]-0.3746913-0.66905936-0.159905190.314564430.09843079-0.52702648
[6,]-0.42567340.22286010-0.07635569-0.438817820.75136526-0.07870544
>kappa(correlation)
[1]955.8992
###结果分析###
结论:
条件数大于10,故认为自变量之间存在复共线性关系。
故前面回归模型的建立是不合理的.从而说明我们最初建立的这个6个变量的方程并不是很接近实际,不能很好的反映出这组数据的意义.
第三章方差分析检验
3.1单因子方差分析
我们的目的是要比较生活能源消费的6个不同种能源的消费水平的效应是否有显著差异,这有利于我们进一步分析6种能源在过去的29年里的变化趋势.所以我们下面利用单因子方差分析来达到目的,这可以归结为检验假设
H0:
各水平之间无明显差异VSH1:
各水平之间有明显差异
利用R语言对这组数据进行分析,得到相应的p值,如果p值小于0.05,那么就拒绝原假设,反之则不能拒绝原假设.由于这六个自变量中X4-X6是气体,所以对它们的使用情况进行分析讨论:
R程序:
Q<-c(0.6,0.6,0.9,.1,1.1,1.2,1.4,1.4,1.8,2.1,2.5,3.2,4.4,5.9,6.2,6.9,6.8,6.8,6.7,7.6,8.6,10.4,10.2,11.1,12.4,11.0,11.2,10.9,12.0,0.1,0.4,0.4,0.6,0.7,1.4,1.5,1.6,1.6,1.8,1.5,1.7,1.6,1.7,1.7,1.9,2.1,2.6,3.3,3.6,4.0,5.2,6.1,7.8,10.9,12.8,13.3,17.0,19.7,1.5,1.6,1.3,1.3,1.6,1.6,2.4,2.5,3.2,4.4,4.6,6.3,4.7,6.4,8.9,9.7,9.3,10.0,9.4,9.8,10.2,10.7,11.1,12.7,14.1,13.9,12.5,14.5,10.9)
A<-factor(rep(4:
6,each=29))
energy<-data.frame(Q,A)
aov.energy<-aov(Q~A,data=energy)###单因子方差分析
summary(aov.energy)
plot(energy$Q~energy$A)###画出三种购进价格指数的箱线图
###运行结果###
DfSumSqMeanSqFvaluePr(>F)
A2117.6958.8452.70140.07294.
Residuals841829.7921.783
---
Signif.codes:
0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
###结果分析###
自由度为2,平方和是117.69,均方和是58.845,F值为2.7014,P值为0.07294
因为P值为0.07294,大于0.05,所以不能拒绝原假设,即认为这三种能源消费无显著差异。
接下来求均值之差的同时置信区间:
R程序:
TukeyHSD(aov(Q~A,energy))###求均值之差的同时置信区间
###运行结果###
Tukeymultiplecomparisons
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人均 生活 能源 消费量 统计分析