书签分享收藏举报版权申诉 / 24

立即下载加入VIP,免费下载

当前位置：首页 > 党团工作 > 入党转正申请 > 人均生活能源消费量统计分析.docx

人均生活能源消费量统计分析.docx

文档编号：27508158
上传时间：2023-07-02
格式：DOCX
页数：24
大小：46.66KB

人均生活能源消费量统计分析.docx

《人均生活能源消费量统计分析.docx》由会员分享，可在线阅读，更多相关《人均生活能源消费量统计分析.docx（24页珍藏版）》请在冰豆网上搜索。

人均生活能源消费量统计分析.docx

人均生活能源消费量统计分析

2013年人均生活能源消费量统计分析

2013StatisticalAnalysisofpercapitaenergyconsumption

院系数学科学学院

专业应用统计

年级2015级

学号2150502012

论文作者杨月　　　

完成日期2016.2.12

中文摘要

本篇论文主要是研究2013年人均能源生活消费量，数据来自2013年统计年鉴8-13.

能源是我们生活中必不可少的物质，能源的发展也让我们的生活变的日新月异，但是能源的使用和环保等息息相关，本篇文章的数据就是研究从1983年到2011年这29年里各种能源使用的人均情况，通过使用线性模型统计方法，我们可以了解到这近30年里我国的生活能源人均使用情况，也可以帮助我们进一步了解，预测未来的生活能源人均使用情况。

关键词

生活能源，线性统计模型，方差分析，主成分分析

Abstract

Thispaperistostudythe2013percapitaenergyconsumptionoflife,datafromthe2013StatisticalYearbook8-13.

Energyisessentialtoourlivesmatter,energydevelopmentalsoallowsustochangethelivesofever-changing,buttheuseofenergyandenvironmentalprotectionarecloselyrelated,thisarticleistostudythedatafrom1983to2011that29yearseachpercapitaenergyuseinthecaseofspecies,byusingalinearmodelofstatisticalmethods,wecanunderstandthatourlifeenergyusepercapitaofnearly30years,canalsohelpustofurtherunderstand,anticipatefuturelifeenergyusepercapita.

Keywords

Lifeenergy,linearstatisticalmodel,varianceanalysis,

principalcomponentanalysis

第一章多元回归分析5

1.1数据相关性分析5

1.2多元线性回归方程的建立9

1.3建立“最优”方程11

第二章方程的诊断及预测13

2.1模型的回归诊断13

2.2结果预测18

2.3复共线性检验19

第三章方差分析检验21

3.1单因子方差分析21

3.2正态性检验24

第四章主成分分析25

第五章结论27

参考文献28

第一章多元回归分析

1.1数据相关性分析

先阐述每个变量的实际意义：

Y：

平均每人生活消费能源（千克标准煤）

X1：

煤炭（千克）X2：

电力（千瓦小时）

X3：

煤油（千克）X4：

液化石油气（千克）

X5：

天然气（立方米）X6：

煤气（立方米）

首先来绘制

与各自变量之间的散点图：

从图上可以直观看出,在第2,4,5,6个图中数据点分布比较有规律，初步推测存在正相关关系；1,3两个图形的规律看起来不太像是简单的线性关系，所以还需要后边进一步的讨论与分析.

1.2多元线性回归方程的建立

下面将要利用R程序和线性统计模型的思想，来确立各个变量之间的函数关系：

Y=a+bX1+cX2+dX3+eX4+fX5+gX6

R程序：

mydata<-read.table（"renjun.txt",header=T）

mydata###输入数据

X1<-mydata$x1;X2<-mydata$x2;X3<-mydata$x3;X4<-mydata$x4

X5<-mydata$x5;X6<-mydata$x6;Y<-mydata$y

shuju<-data.frame（Y,X1,X2,X3,X4,X5,X6）

lm.reg<-lm（Y~X1+X2+X3+X4+X5+X6,data=shuju）

summary（lm.reg）

###运行结果###

Call:

lm（formula=Y~X1+X2+X3+X4+X5+X6,data=shuju）

Residuals:

Min1QMedian3QMax

-7.516-1.0220.6351.5124.015

Coefficients:

EstimateStd.ErrortvaluePr（>|t|）

（Intercept）-10.997668.28858-1.3270.19817

X10.861500.0451719.0733.58e-15***

X20.485740.057548.4422.39e-08***

X3-2.243713.52397-0.6370.53089

X42.618520.790073.3140.00315**

X5-0.494650.89031-0.5560.58410

X60.489260.592470.8260.41778

---

Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:

2.652on22degreesoffreedom

MultipleR-squared:

0.9978,AdjustedR-squared:

0.9972

F-statistic:

1671on6and22DF,p-value:

<2.2e-16

###结果分析###

回归方程为Y=-10.99766+0.86150X1+0.48574X2-2.24371X3+2.61852X4-0.49465X5+0.48926X6

由每个自变量后边的P值可知，回归方程和回归系数的检验并不都是显著的

其中X1,X2,X4是显著的，其他变量的显著性不高

所以下面就涉及到变量选择的问题，以建立”最优“的回归方程.

1.3建立“最优”方程

由上面的运行结果可知，对于六个自变量的模型，每个系数的检验并不都是很显著，6个变量中有3个变量并不显著.

那么为了更好的研究这组数据，我们需要建立更好的方程，下面利用逐步回归法建立“最优”方程

R程序：

lm.step<-step（lm.reg）

lm.step

###运行结果###

>lm.step<-step（lm.reg）

Start:

AIC=62.55

Y~X1+X2+X3+X4+X5+X6

DfSumofSqRSSAIC

-X512.17156.8660.953

-X312.85157.5461.079

-X614.79159.4861.435

154.6962.549

-X4177.23231.9272.294

-X21501.07655.76102.436

-X112557.892712.58143.612

Step:

AIC=60.95

Y~X1+X2+X3+X4+X6

DfSumofSqRSSAIC

-X314.1161.059.704

-X616.9163.860.206

156.960.953

-X41132.5289.476.710

-X112625.42782.3142.348

-X219644.59801.4178.866

Step:

AIC=59.7

Y~X1+X2+X4+X6

DfSumofSqRSSAIC

-X6111.5172.559.703

161.059.704

-X41152.7313.677.048

-X112635.92796.9140.500

-X219641.29802.2176.869

Step:

AIC=59.7

Y~X1+X2+X4

DfSumofSqRSSAIC

172.559.703

-X41275.5447.985.384

-X113524.93697.3146.594

-X2110038.910211.3176.055

>lm.step

Call:

lm（formula=Y~X1+X2+X4,data=shuju）

Coefficients:

（Intercept）X1X2X4

-8.90990.83450.45693.4102

###结果分析###

我们已知建立更好的回归方程的时候，观察AIC的值，AIC的值越小越好

通过上面运行得出的结果可知，当所有的自变量都保留的时候，AIC的值最小，此时最优回归方程为Y=-8.9099+0.8345X1+0.4569X2+3.4102X4

第二章方程的诊断及预测

2.1模型的回归诊断

在初步建立回归方程的时候我们观察到：

6个变量中，X1，X2和X4的系数是检验显著的，在利用逐步回归方法建立更好的回归模型之后，发现6个变量中只剩下了这三个变量，可见我们的结果应该是正确的。

那么下面我们来进行回归诊断，通过作图看看这个新的方程模型的残差，标准化残差的情况.

R程序：

y.res<-residuals（lm.reg）###计算残差

print（y.res）

y.rst<-rstandard（lm.reg）###计算标准化残差

print（y.rst）

y.fit<-predict（lm.reg）###计算预测值

op<-par（mfrow=c（1,2））###将两张三点残差图一并输出

plot（y.res~y.fit）

plot（y.rst~y.fit）

par（op）

###运行结果###

>y.res<-residuals（lm.reg）###计算残差

>print（y.res）

1234567

1.51199171.8344901-0.8076105-1.0348938-1.3846500-0.98667860.2281957

891011121314

0.79719160.18353084.01538651.29328821.3755242-7.51591900.7758898

15161718192021

-2.7306781-4.1197411-0.14370931.05074890.6417496-1.02247661.7480140

22232425262728

2.91751122.59418571.6793161-2.54544082.0022101-0.1874719-2.8049657

29

0.6350112

>y.rst<-rstandard（lm.reg）###计算标准化残差

>print（y.rst）

123456

0.640992850.81548394-0.32773615-0.43511961-0.56564910-0.41264731

789101112

0.094308660.322824800.075458921.674622190.550128740.57564952

131415161718

-3.296457470.33623619-1.09061227-1.70358633-0.058672280.44256993

192021222324

0.26640928-0.418175100.696009661.366445391.102857940.72534362

2526272829

-1.142223300.84740761-0.12032898-1.490691480.52974989

从残差---标准化残差图像中可以看到残差的范围大概在-6到+4之间，标准化残差的范围大概在-3到+1之间，这个范围稍微有点大，下面我们应用模型更新来缩小残差的范围.

R程序：

lm.new_reg<-update（lm.step,sqrt（.）~.）

summary（lm.new_reg）

###运行结果###

Call:

lm（formula=sqrt（Y）~X1+X2+X4,data=shuju）

Residuals:

Min1QMedian3QMax

-0.28146-0.079420.018080.086560.26224

Coefficients:

EstimateStd.ErrortvaluePr（>|t|）

（Intercept）5.54583340.297070518.6683.41e-16***

X10.03547520.001983117.8899.23e-16***

X20.01542760.000643423.979<2e-16***

X40.20362790.02898907.0242.31e-07***

---

Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:

0.1411on25degreesoffreedom

MultipleR-squared:

0.9949,AdjustedR-squared:

0.9943

F-statistic:

1624on3and25DF,p-value:

<2.2e-16

###结果分析###

更新之后的模型各个系数的显著性很高，新的回归方程为Y=5.5458334+0.0354752X1+0.0154276X2+0.2036279X6

下面进行更新后的模型的回归诊断：

R程序：

y.res<-residuals（lm.new_reg）###计算残差

print（y.res）

y.rst<-rstandard（lm.new_reg）###计算标准化残差

print（y.rst）

y.fit<-predict（lm.new_reg）###计算预测值

op<-par（mfrow=c（1,2））###将两张三点残差图一并输出

plot（y.res~y.fit）

plot（y.rst~y.fit）

par（op）

###运行结果###

由图像可以看出，新模型的残差图有很大改善，残差都控制在[-0.3,0.2],残差控制在[-2,2]

可以认为没有异常点.

2.2结果预测

检验一个方程是否符合原数据的一个重要方法就是检验某组数的预测值并和真实值作比较；通过比较预测值和真实值之间的差距可以看出该方程是否比较合理.

R程序：

point<-data.frame（x1=143.0,x2=47.2,x4=1.8）

lm.pred<-predict（lm.step,point,interval="prediction",level=0.95）

lm.pred

###运行结果###

fitlwrupr

1137.9839132.3141143.6537

###结果分析###

当x1=143.0,x2=47.2,x4=1.8时，预测出的Y值为137.9839，预测区间为[132.3141,143.6537]，而真实值是139.2，可见这个方程还是很符合实际数据的，所以可以用这个模型来预测接下来年份的生活能源人均消费量

2.3复共线性检验

经过前面的分析过程之后，我们已经得到一个比较好的模型：

Y=-8.9099+0.8345X1+0.4569X2+3.4102X4；所以下面进行复共线性检验的时候我们利用最开始建立的初步模型，即：

Y=-10.99766+0.86150X1+0.48574X2-2.24371X3+2.61852X4-0.49465X5+0.48926X6

R程序：

shuju<-data.frame（Y,X1,X2,X3,X4,X5,X6）

lm.reg<-lm（Y~X1+X2+X3+X4+X5+X6,data=shuju）

x<-cbind（X1,X2,X3,X4,X5,X6）

correlation<-cor（x,x）;correlation

eigen（correlation）

kappa（correlation）

###运行结果###

>correlation<-cor（x,x）;correlation

X1X2X3X4X5X6

X11.0000000-0.72055570.8545643-0.8913537-0.5745178-0.9258082

X2-0.72055571.0000000-0.83780960.91621290.97032310.8703924

X30.8545643-0.83780961.0000000-0.9262118-0.7167230-0.9288988

X4-0.89135370.9162129-0.92621181.00000000.80379270.9688594

X5-0.57451780.9703231-0.71672300.80379271.00000000.7457311

X6-0.92580820.8703924-0.92889880.96885940.74573111.0000000

>eigen（correlation）

$values

[1]5.2293901640.5742543410.1221721860.0451962260.0256643720.003322711

$vectors

[,1][,2][,3][,4][,5][,6]

[1,]0.3887585-0.532311820.53204734-0.514007750.12728430-0.04507026

[2,]-0.4147224-0.41265066-0.06339228-0.03642609-0.055871060.80576531

[3,]0.4120161-0.20585491-0.82486550-0.325721100.023424210.02864363

[4,]-0.43072440.08173287-0.03322796-0.58039907-0.63709502-0.25286168

[5,]-0.3746913-0.66905936-0.159905190.314564430.09843079-0.52702648

[6,]-0.42567340.22286010-0.07635569-0.438817820.75136526-0.07870544

>kappa（correlation）

[1]955.8992

###结果分析###

结论：

条件数大于10，故认为自变量之间存在复共线性关系。

故前面回归模型的建立是不合理的.从而说明我们最初建立的这个6个变量的方程并不是很接近实际，不能很好的反映出这组数据的意义.

第三章方差分析检验

3.1单因子方差分析

我们的目的是要比较生活能源消费的6个不同种能源的消费水平的效应是否有显著差异，这有利于我们进一步分析6种能源在过去的29年里的变化趋势.所以我们下面利用单因子方差分析来达到目的,这可以归结为检验假设

H0：

各水平之间无明显差异VSH1：

各水平之间有明显差异

利用R语言对这组数据进行分析，得到相应的p值，如果p值小于0.05，那么就拒绝原假设，反之则不能拒绝原假设.由于这六个自变量中X4-X6是气体，所以对它们的使用情况进行分析讨论:

R程序：

Q<-c（0.6,0.6,0.9,.1,1.1,1.2,1.4,1.4,1.8,2.1,2.5,3.2,4.4,5.9,6.2,6.9,6.8,6.8,6.7,7.6,8.6,10.4,10.2,11.1,12.4,11.0,11.2,10.9,12.0,0.1,0.4,0.4,0.6,0.7,1.4,1.5,1.6,1.6,1.8,1.5,1.7,1.6,1.7,1.7,1.9,2.1,2.6,3.3,3.6,4.0,5.2,6.1,7.8,10.9,12.8,13.3,17.0,19.7,1.5,1.6,1.3,1.3,1.6,1.6,2.4,2.5,3.2,4.4,4.6,6.3,4.7,6.4,8.9,9.7,9.3,10.0,9.4,9.8,10.2,10.7,11.1,12.7,14.1,13.9,12.5,14.5,10.9）

A<-factor（rep（4:

6,each=29））

energy<-data.frame（Q,A）

aov.energy<-aov（Q~A,data=energy）###单因子方差分析

summary（aov.energy）

plot（energy$Q~energy$A）###画出三种购进价格指数的箱线图

###运行结果###

DfSumSqMeanSqFvaluePr（>F）

A2117.6958.8452.70140.07294.

Residuals841829.7921.783

---

Signif.codes:

0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

###结果分析###

自由度为2，平方和是117.69，均方和是58.845，F值为2.7014，P值为0.07294

因为P值为0.07294，大于0.05，所以不能拒绝原假设，即认为这三种能源消费无显著差异。

接下来求均值之差的同时置信区间:

R程序：

TukeyHSD（aov（Q~A,energy））###求均值之差的同时置信区间

###运行结果###

Tukeymultiplecomparisons

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 人均生活能源消费量统计分析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：人均生活能源消费量统计分析.docx
链接地址：https://www.bdocx.com/doc/27508158.html

人均生活能源消费量统计分析.docx

热门标签