统计分析基础知识doc.docx
- 文档编号:2016892
- 上传时间:2022-10-26
- 格式:DOCX
- 页数:13
- 大小:991.04KB
统计分析基础知识doc.docx
《统计分析基础知识doc.docx》由会员分享,可在线阅读,更多相关《统计分析基础知识doc.docx(13页珍藏版)》请在冰豆网上搜索。
统计分析基础知识doc
一.统计学中数据类型
在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定比变量。
1•定类数据(Nominal):
名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。
例如,”性别“,”男“编码为
1,”女“编码为2。
2•定序数据(Ordinal):
数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。
例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中
=4,大学=5,硕士研究生=6,博士及其以上=7。
3•定距数据(Interval):
具有间距特征的变量,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。
例如,温度。
4•定比变量(Ratio):
数据的最高级,既有测量单位,也有绝对零点,例如职工人数,身高。
不同测度级别的数据,应用范围不同。
等级高的数据,可以兼有等级低的数据的功能,而等级低的数据,不能兼有等级高的数据的功能。
李克特量表
李克特量表又称分项评分量表,时由美国社会心理学家RensisA.Likert于1932年提出
的。
李克特量表的度量级别,通常是5级,在应用中7级,9级均可,但通常不少于5
级,不高于9级。
归一化
在统计学中,归一化的具体作用是归纳统一样本的统计分布性。
归一化在0-1之间是
统计的概率分布,归一化在-1--+1之间是统计的坐标分布。
即该函数在(-8,+*的积分为1
线性函数转换如下
y=(x-MinValue)/(MaxValue-MinValue)
说明:
x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最
小值。
(x-min)/(max-min)
这样所有的数据都归一化为0到1之间的数了
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,
成为纯量。
归一化是为了加快训练网络的收敛性,可以不进行归一化处理
归一化的具体作用是归纳统一样本的统计分布性。
归一化在0-1之间是统计的概率分
布,归一化在-1--+1之间是统计的坐标分布。
归一化有同一、统一和合一的意思。
无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统
计分别几率来进行训练(概率计算)和预测的,归一化是同一在0-1之间的统计概率分
布;SVM是以降维后线性划分距离来分类和仿真的,因此时空降维归一化是统一在-1--
+1之间的统计坐标分布。
归一化是因为sigmoid函数的取值是0到1之间的,网络最后一个节点的输出也是如此,所以经常要对样本的输出归一化处理。
所以这样做分类的问题时用[0.90.10.1]
就要比用要好。
但是归一化处理并不总是合适的,根据输出值的分布情况,标准化等其它统计变换方法
有时可能更好。
主要是为了数据处理方便提出来的,把数据映射到0〜1范围之内处理,更加便捷快速,
应该归到数字信号处理范畴之内。
归一化方法(NormalizationMethod)
1。
把数变为(0,1)之间的小数主要是为了数据处理方便提出来的,把数据映射到0〜1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。
2。
把有量纲表达式变为无量纲表达式归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。
比如,复数阻抗可以归一化书写:
Z=R+j3L=R(1+j3L/R),复数部分变成了纯数量了,没有量纲。
标准化方法(NormalizationMethod)
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。
关于神经网络(matlab)归一化的整理
关于神经网络归一化方法的整理
由于采集的各数据单位不一致,因而须对数据进行[-1,1]归一化处理,归一化方法主
要有如下几种,供大家参考:
(byjames)
1、线性函数转换,表达式如下:
y=(x-MinValue)/(MaxValue-MinValue)
说明:
x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小
值。
2、对数函数转换,表达式如下:
y=log10(x)
说明:
以10为底的对数函数转换。
3、反余切函数转换,表达式如下:
y=atan(x)*2/PI
归一化是为了加快训练网络的收敛性,可以不进行归一化处理
归一化的具体作用是归纳统一样本的统计分布性。
归一化在0-1之间是统计的概率分
布,归一化在-1~+1之间是统计的坐标分布。
归一化有同一、统一和合一的意思。
无论
是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统
计分别几率来进行训练(概率计算)和预测的,归一化是统一在0-1之间的统计概率分布;
当所有样本的输入信号都为正值时,与第一隐含层神经元相连的权值只能同时增加或减小,从而导致学习速度很慢。
为了避免出现这种情况,加快网络学习速度,可以对输入信号进行归一化,使得所有样本的输入信号其均值接近于0或与其均方差相比很
小。
归一化是因为sigmoid函数的取值是0到1之间的,网络最后一个节点的输出也是如此,所以经常要对样本的输出归一化处理。
所以这样做分类的问题时用[0.90.10.1]
就要比用[100]要好。
但是归一化处理并不总是合适的,根据输出值的分布情况,标准化等其它统计变换方法
有时可能更好。
MATLAB归一化方法
你在所有的数据中找出最大的那个数max
可以用matlab的max函数
在所有的数据中找出最小的那个数min
可以用matlab的min函数
如果是Origin,那么选中要归一化的数据列,点击右键,在弹出的对话框中选
择Normalize
在excel表格中如何对数据进行归一化处理
比如对A1到A10中的是个数进行归一化处理,就是分别计算每个数占这是个数这和的百
分比,可以用公式计算,不是很难,例如:
在单元格B1中输入“=A1/sum($A$1:
$A$10)",
点击B1右下角的黑十字下拉到B10放开鼠标,b列的结果就是你要的归一化结果。
数据
多的话只需改动公式中sum函数的引用位置,女口A列有100个数,B1中改为”=A1/sum
($A$1:
$A$100)“
下面我们来看一组数据,并检验期初平均分”数据是否呈正态分布(此数据已在SPSS里输入好)
Xff?
)Ml'鼻El,界R1ft.卢执歸H-r(Bfl;:
X*皿131甲目加
tflaiaiglmi-rirlGiiin寻剛
gjr猪迂眾初尹也I亢町理(立玄毘叵
(JtfW>劳N«>(Mff>
在SPSS里执行分析一>描述统计一>频数统计表”菜单见下图,英文版的可以找到相应位置),然后弹出
左边的对话框,变量选择左边的期初平均分”再点下面的图表”按钮,弹岀图中右边的对话框,选择
直方图”并选中包括正态曲线”
:
⑴
1阴表◎
工具⑪窗口⑩
帮肋QP
报吿迥
i
描述貌计⑥
7
频数另布叢匡)...
表務⑴
描述眾计分靳01)..
l
均值比较⑩
»
探索另析嵐”
X
一般线性模型©
交究壷◎
■-
讒合複型(X)
比率W-
-
相共分析&
►
bU.ULI
b/.5
回归分靳0)
*
75QQ
73.5
裁數踱性(Q)
*
10.00
36.5
J
聚类分析Q)
k
63.00
70.5
f
敬据缩减Q)
63.DQ
51.5
尺廈分斬@)
►
■
81.00
79.5
设置完后点确定”就后会岀来一系列结果,包括2个表格和一个图,我们先来看看最下面的图,见下图,
Histogram
过一
上图中横坐标为期初平均分,纵坐标为分数岀现的频数。
从图中可以看岀根据直方图绘岀的曲线是很像正态分布曲线。
如何证明这些数据符合正态分布呢,光看曲线还不够,还需要检验:
检验方法一:
看偏度系数和峰度系数
我们把SPSS结果最上面的一个表格拿出来看看(见下图):
期初平均分
N
v^iid
S3
Missing
0
Mean
61373
Std.Deviation
12.8639
Skarnsss
-333
Std.ErrorofSkewness
Kurlnsis
.966
Std.ErrorofKurtosis
.493
Minimum
15.Q
Maxirnunn
91.a
偏度系数Skewness=-0.333;峰度系数Kurtosis=0.886;两个系数都小于1,可认为近似于正态
分布。
检验方法二:
单个样本K-S检验
期初平均
在SPSS里执行分析一>非参数检验一>单个样本K-S检验,弹岀对话框,检验变量选择
频率表(教育程度)
分”检
验分布选择正态分布”然后点确定
检验结果为:
One-SampleKoliiioymnv-SiikiinwT◎軾
期初平均分
忖
96
NormalParanieters^it
61.378
Std.Deviation
12.0630
MostExtreme
Absolute
.05C
Differences
Positive
.044
Megafive
^.05C
Ko[magorov-SmirriovZ
.493
As/mp.Sig.(2-tailed)
ese
adistributeris
Normal.
b.Calculatedfromdata
从结果可以看出,K-S检验中,Z值为0.493,P值(sig2-tailed)=0.968>0.05,因此数据呈近似正态分布
检验方法三:
Q-Q图检验
在SPSS里执行图表一>Q-Q图”弹出对话框,见下图:
■Q-Q圈
令年釀編号
砂性别
莎实尤、球(期初)
@立定跳远I期初)
专立定跳远<期末)审睡平均分矽进步幅睫分
I正懑工
>从数摇估计包_ocation.
Sc^le:
转换
比例估计公式
r自脚数转掘即
f*glam's4BankitLJukeys
r标匮忧数值回
■V^nderWaerden's
r差异业】;r
—[
厂季节性差异国[7*
醫均值也厂高已c低8J
当丽周期:
无
「任倉廿斷结点哙
变量选择期初平均分”检验分布选择正态”其他选择默认,然后点确定”最后可以得到Q-Q图
检验结果,结果很多,我们只需要看最后一个图,见下图。
NormalQ-QPlotof期初平均分
iao
20-L
ObservedValue
|简介
显著性差异(significaneelevel),是一个统计学名词。
它是统计学(Statistics)上对
数据差异性的评价。
也可能来自于实验处理对实验对象造成了根本性状改变,因而前测后测的数据会有显著性差
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计分析 基础知识 doc