教案数据分析及挖掘实战专Word文档下载推荐.docx
- 文档编号:17579574
- 上传时间:2022-12-07
- 格式:DOCX
- 页数:41
- 大小:460.55KB
教案数据分析及挖掘实战专Word文档下载推荐.docx
《教案数据分析及挖掘实战专Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《教案数据分析及挖掘实战专Word文档下载推荐.docx(41页珍藏版)》请在冰豆网上搜索。
平时作业50分
综合项目(不低于2个)40分,期末总分不超过100分
课堂纪律:
三次请假算一次旷课,旷课3次,取消考试资格
作业严禁抄袭,一旦发现,取消抄袭人和被抄袭人的考试资格
由于有些数需要保存,上课请自带电脑
3、SPSS简介
●与SAS,STATA一起,成为世界公认的三大数据分析软件。
SAS适合高级用户使用,STATA也是功能强大,易于使用的分析软件。
●提供多种实用的分析方法,具有强大的图形绘制和编辑图形的功能
●易于学习和使用,操作简单,多数可以通过菜单、对话框完成,熟悉SPSS语言的用户可以直接输入SPSS命令,提交系统执行
●兼容多种数据文件格式,具有强大的图表功能
4、学习SPSS对于学生的用处
●以财务、会计、市场、工程造价专业为主的商科院校学生,未来职业离不开数据,学习SPSS有助于对数据的使用水平和能力
●大数据时代,从数据中获取有价值的信息,提升对事物的洞察能力
●数据分析岗位的必备技能之一
五、SPSS与EXCEL
●对于不会编程、不想记公式、不会VBA的用户来说,使用“傻瓜式”的SPSS,更能体会到数据统计分析的简单和强大
●EXCEL也能完成部分的统计功能,但对专业的统计而言,尚不能满足要求,SPSS基本上能满足大多数的统计要求
●SPSS结合SPSSMODELER,能实现数据的建模和挖掘
●数据的计算和数据筛选、基本图表的制作,选择excel,在不熟悉编程和众多公式的情况下,要完成复杂的数据的统计分析,数据建模等,用SPSS
●用SPSS处理数据,将结果导出为excel,用excel做图表
●用EXCEL计算数据,然后用SPSS倒入做复杂统计分析
六、SPSS三大窗口
数据(data)窗口
变量(variable)窗口
结果(output)窗口
作
业
布
置
下载安装SPSS22.0
课
后
总
结
02
第二讲:
SPSS数据编辑与整理
(一)
讲授/实验
●掌握SPSS数据编辑的基本方法
●能对个案排序
●能合并与拆分文件
●能对数据分类汇总
一、数据编辑
由【编辑】菜单命令,弹出子菜单
1、插入变量(InsertVariable)
在数据编辑窗口选定要插入变量位置的后一个变量,可以从工具条直接点击插入变量按钮,或从菜单中选择【编辑】→【插入变量】,数据编辑窗口产生一个新的变量列。
新变量的名称是系统默认的名称,如果需要修改变量名称,需要进入变量视图窗口进行修改。
2、插入个案(InsertCase)
在数据编辑窗口选定要插入个案位置的后一个个案,可以从工具条直接点击插入个案按钮,或从菜单中选择【编辑】→【插入个案】菜单命令。
数据编辑窗口产生一个新的个案行。
3、选项:
从菜单中选择【编辑】→【选项】菜单命令,点击“语言”选项卡标签。
1、数据整理:
排序个案
由【数据】菜单命令,弹出子菜单,对个案按照某一变量或多个变量的顺序进行排序
案例:
以“考试成绩.sav”文件为例,从菜单中选择【数据】→【个案排序】菜单命令,弹出观察值排序对话框。
排序依据:
选择排序变量。
排列顺序:
⊙升序。
数值型变量由小到大排列,字符型变量按ABCD字母顺序排列。
系统默认项。
○降序。
数值型变量由大到小排列,字符型变量按ZYX字母顺序由后向前排列。
保存已分类数据:
(可选)。
此时,可以实现分别按性别进行对总分排序,即先对所有的男生,按总分从低到高排序;
然后再按所有女性,按总分从低到高排序。
2、数据整理:
转置
有时用户需要将数据管理器中原先按行(列)方向排列的数据转换成按列(行)方向排列的数据。
打开数据文件“七个评委.sav”
从菜单中选择【数据】→【转置】菜单命令,弹出【转置】对话框。
3、数据整理:
合并文件
文件合并的目的是,将其他数据文件的个案(变量)添加到当前文件中,合并后新数据的个案(变量)应该为两文件之和。
分为两种形式:
添加个案、添加变量。
2.4.1添加个案
添加个案,即将其他数据文件的个案添加到当前文件中。
应用情境包括:
(1)多个合作者输入问卷数据汇总、合作单位的数据进行汇总,需要并成一个总的文件。
注意:
多个合作者输入时,需要统一约定变量定义规则和输入规则,并指定其中一个合作者定义变量和建立数据文件,然后其他合作者复制该数据文件,并在该复制文件中输入数据。
(2)不同部门、不同学院的数据汇总到上一级部分。
案例:
将“数据文件1.sav”与“数据文件2.sav”合并为例,其基本操作如下:
第1步:
先打开“数据文件1.sav”。
从菜单选择【数据】→【合并文件】→【添加个案】菜单命令。
第2步:
选定单选框
“⊙外部SPSSStatistics数据文件”,点击【浏览】按钮,选择需要合并的文件“数据文件2.sav”后,点击【继续】按钮。
弹出“添加个案”对话框如下图。
第3步:
完成有关设置,点击【确定】按钮。
在文件添加后,原来的数据集窗口顶栏的文件名称前面会出现*标识,如下图所示。
在SPSS中,只要数据出现变化,都会出现*标识。
点击【保存】按钮后,“*”将消失。
将其他文件的变量及其数据添加到当前文件中。
适用范围:
(1)在一次研究中对同一批被试进行测量了多份测验、或进行了多次实验,获得了该批被试的多份测量数据;
或者数据输入时不同的合作者输入了不同的测验问卷。
(2)不同部门的数据合并。
例如教务科的成绩,与学工处的学生信息合并,将学生的成绩信息,与个人生理心理健康档案合并。
将“横向文件1.sav”与“横向文件2.sav”合并为例。
先打开“横向文件1.sav”。
从菜单选择【数据】→【合并文件】→【添加变量】菜单命令。
如下图:
第2步:
选定单选框“
⊙外部SPSSStatistics数据文件”,点击【浏览】按钮,选择需要合并的文件“横向文件2.sav”后,点击【继续】按钮。
弹出添加个案对话框。
在本例中,选中复选框“按照排序文件中的关键变量匹配个案”,并选择在“排除的变量:
”、“新的活动数据集:
”两个变量框中都选择“ID”,并移入到关键变量中。
第4步:
完成有关设置,点击【确定】按钮,就将以上文件合并添加,所有的变量及其数据都会添加到新的数据集中,并排列在原数据集的变量的右侧。
在文件添加后,原来的数据集窗口顶栏的文件名称前面会出现*标识。
4、数据整理:
分类汇总
用户还可对数据管理器中的数据按指定变量的数值进行归类分组汇总,汇总的形式多种多样。
打开“心理健康调查数据.sav”,按变量民族、年级进行汇总计算智力测验分数的平均分、英语成绩的平均分。
选“性别”、“民族”变量进入分界变量列表框,选择“智力分数”进入变量摘要列表框,因“智力分数”欲作平均值汇总,系统默认的是平均值MEAN汇总。
如果需要选择总和、标准差以及其他函数,可以点击【函数】按钮,弹出“汇总数据:
汇总函数”对话框,选择相对应的函数。
在主对话框中,选择复选框“□个案数”;
在“保存”列表框中,选择“○创建只包含汇总变量的新数据集”,需要输入名称;
再点击【确定】按钮即可。
结果如同所示,在一个新的窗口展示了新的数据集。
03
第三讲:
SPSS数据编辑与整理
(二)
●掌握选择个案与加权个案的基本方法
●掌握数据重新编码的基本方法
选择个案
在数据分析时,有时可能只对某些个案进行分析。
例如,
(1)在判别分析时,可能用其中90%的个案数据建立判别函数,用其余10%的个案来考核判别函数。
此时,可以通过选择个案的操作。
(2)在艾森克问卷分析时,选择L量表分数小于18的个案数据才进行分析。
在数据编辑窗口打开一个例子文件“心理健康调查数据.sav”,从菜单选择【数据】→【选择个案】菜单命令。
图中有五种选择方式,解释如下:
①全部个案,系统默认。
②如果条件满足。
选择此项后,【如果】按钮被激活,单击该按钮,弹出条件设置对话框。
本例设置“情商分数>
70”如下图所示。
③随机个案样本:
随机抽取一定比例的观测个案。
④基于时间或个案范围:
按个案编号抽取个案。
设置观测个案的起始个案号,缺省为第1个个案号开始;
设置结束个案号。
⑤使用过滤变量:
用过滤变量选取个案。
过滤变量值大于0的个案将被选取。
输出:
选取的、或未被选取个案的处理方式
⊙过滤未选定的个案:
未被选取的个案保留在文件中,未被选中的个案其编号内标有对角斜线,其过滤变量filter_$赋值为0。
系统默认该选项。
○将选定个案复制到新数据集:
被选取的个案复制、并新建一个数据集。
○删除未选定个案:
未被选取的个案从文件中删除。
加权个案
在计算的过程中需要利用变量对数据进行加权处理时采用。
例如在后面的交叉表分析(列联表分析),计数变量的卡方检验时,需要对人数、数量进行加权;
计算加权平均数时,也需要对数据进行加权。
打开数据文件“某一同学的课程分数.sav”,从菜单选择【数据】【个案加权】,打开个案加权的对话框。
选择“○个案加权系数”,将“课程权重”变量选择到右边。
点击【确定】按钮,完成加权设置。
此时,再计算该同学的课程成绩的总平均分(或者说综合素质总分)。
点击菜单命令【分析】→【描述统计】→【描述】,在【描述统计】对话框中选择“课程成绩”变量作为分析变量,点击【确定】,可以得到如下。
取消加权
取消对“课程权重”变量的加权,将“课程权重”变量选择到左边;
并选择”○不对个案加权”。
再次计算该同学的课程成绩的总平均分,可以得到如下结果。
选择加权变量的注意事项:
可以加权的变量一般在含义上表达为人数、次数、频数、数量、比例、权重、占比等。
加权变量为分数、小数,加权的作用也是有效的。
加权变量中含有零、负数或缺省值的观测量将被排除在分析之外。
一旦对数据进行了加权处理,那么在该数据文件以后的分析中加权处理一直有效,直到取消加权变量(即关闭加权处理)。
3、重新编码
在菜单【转换】下有
【重新编码为相同的变量】
【重新编码为不同变量】
不同之处:
【重新编码为相同的变量】菜单命令,旧的变量名称不变,旧变量值会转换为新变量值;
【重新编码为不同变量】菜单命令会生成一个新的变量,旧变量名称和变量值都保持不变。
打开数据文件“艾森克人格问卷.sav”,点击菜单【转换】【重新编码为相同的变量】菜单命令
第1步:
选择变量。
将V2、V8、V10、V17、V33、V50、V62、V80这些变量从左边的对话框选择到右边的“数字变量”列表框;
点击【旧值和新值】按钮。
第2-1步:
在“旧值”框内,选择第一个单选按钮“○值”,并输入1,在“新值”框内,输入0,此时,右边【添加】按钮就被激活了,单击此按钮,就把这个旧的变量区间(值)以及新的码值到“旧—>
新”栏中。
第2-2步:
在“旧值”框内,选择第一个单选按钮“○值”,并输入0,在“”框内,输入1,此时,右边【添加】按钮就被激活了,单击此按钮,就把这个旧的变量区间(值)以及新的码值到“旧—>
第2-3步:
点击【继续】按钮回到【重新编码为相同的变量】主对话框,点【确定】按钮执行菜单命令,在数据窗口可得到重新编码后的数据。
提交第一次作业:
数据的编辑与整理
04
第四讲:
SPSS统计分析前的准备
●掌握SPSS文件属性及变量设置的方法
●数据文件的准备
●变量设置的基本方法
一、SPSS数据文件的建立
建立数据文件的四种方法:
●新建数据文件
●直接打开已有的数据文件
●使用数据库查询
●从文本向导倒入数据
2、新建数据文件
文件菜单
新建-数据,可以创建一个新的数据编辑窗口SPSS默认的数据文件,扩展名为sav
三、打开已有的数据文件
●文件菜单-打开-数据
●可以直接打开excel文件
●可以直接打开有固定格式的文本文件
四、利用数据库导入数据
文件-打开数据库-新建查询
⏹可以连接到几乎所有主流数据库,如access,sqlserver,oracle等,通过查询从数据获取想要的数据,这些都可以通过界面来完成
⏹如果需要更进一步,当然了解SQL语句,是必要的
5、案例:
股票指数的导入
上证指数2014年第一季度数据.xls文件中,包含了2014年1月2日到2014年3月31日的资料数据,包括开盘价、最高价、最低价和收盘价等数据,现在需要将该EXCEL文件数据导入到SPSS中
6、SPSS数据文件属性
一个完整的SPSS文件结构,应包括变量名称、变量类型、变量名标签、变量值标签。
通过左下角的“变量视图”设置文件的各属性
与EXCEL不同的是,SPSS的一列数据称为一个变量,每个变量有一个变量名。
SPSS每一行数据称为一个个案或一个观测量
7、变量类型设定
每个变量都必须设定类型
常用的数据类型为:
数值、日期和字符串对数值类型变量,需要指定小数位数,对日期变量,需要指定日期显示类型,用于对变量可能的取值的进一步设定,变量值标签对于用数值表示非数值变量尤其有用。
如性别,只有男和女,可以用数值1表示男,用数值2表示女。
变量的测度类型
只有三种:
度量、有序和名义
名义测量是最低的一种测量等级。
其数值仅代表某些分类或属性。
比如,用来表示性别(1或2)、民族(1、2、3…)等。
这类变量一般不做高低大小区分。
有序测量水平高于名义测量,用于的测量的数值代表了一些有序分类。
例如用于表示受教育程度高低的数字(1,2,3…),具有一定的顺序性
度量测量:
表示可以加减或加减乘除的实际测量值,如成绩、开盘价、涨跌等
顾客满意度调查表的数据属性设计
打开“顾客满意度.sav”文件
按如下完成变量的设置
提交第二次作业:
设置变量的属性及文件导入导出
05
第五讲:
SPSS基本统计分析
(一)
●掌握频数统计的基本方法和应用
●掌握描述性分析的基本方法和应用
●掌握探索性分析的基本方和和应用
1、概述
统计分析的目的,是研究总体的数量特征,可采用两种方式来实现
第一:
数值计算。
计算常用的基本统计量的值,通过数值来反应那个数据的基本统计特征
第二:
图形绘制。
绘制基本统计图形,通过图形来只管呈现数据的分布特点
实际应用中,两种方法通常都是混合使用的。
2、SPSS常用的基本统计方法
频数分析:
产生频数(出现的次数)统计表
描述性分析:
进行基本的统计分析,挖掘常用统计量的基本特征
探索性分析:
对数据进行初步检查,判断数据有无奇异值或极端值,判断数据是否符合正态分布,对数据的规律进行初步考察
列联表分析:
指两个或多个变量各水平的频数(出现的次数)分布表,又叫频数交叉表
3、频数分析案例:
产品销量统计
假设某公司每周大约卖出2000万件产品,但市场的需求不稳定,该公司的生产经理想更好的掌握近期产品的销售情况,市场营销部门给出了近期每周产品的销售数据(单位:
百万),利用这些数据,可以得到哪些有助于生产及销售的信息?
24、18、18、26、24、23、16、18、21、20、21、24、19、19、14、22、21、26、27、15、19、17、20、20、19、22、23、16、23、21、15、19、21、20、22、15、24、19
4、SPSS描述统计分析
主要用于对连续变量进行描述性分析统计,可以输出多种类型的统计变量
主要统计以下统计目的:
●刻画集中趋势的统计量
●刻画离散程度的统计量
●刻画分布形态的统计量
案例:
统计某公司的男、女员工年龄状况
5、探索性分析
探索性分析用于对变量的分布特点不了解时,都变量进行相关的分析,为下一步的数据分析提供相应的参考
其基本思想是从数据的本身出发,用以分析数据的大致情况,位传统的统计提供良好的数据基础和减少分析的盲目性
其主要作用:
●检查数据是否有错,检查是否有异常值,决定是否从分析中剔除这些数据
●获得数据的分布特征
●对数据进行初步观察,发现一些内在的规律
探索性分析案例:
城市的温度差异分析及数据解读
对几个选项的说明
因变量列表:
是我们关注的目标变量,有时也叫分析变量。
在本案例中,我们关注温度的变化,因此,我们将候选变量“平均温度”选入到因变量列表
因子列表:
影响因变量的因素,有时也叫分组变量,在本案例中,既可以按城市来分组,也可以按月份来分组,由于我们主要考察城市的温度变化,因此将候选变量“城市”选入到因子列表
标注个案:
若系统在探索分析时发现异常值,便可以用标识变量加以标识,便于用户寻找这些值
提交第三次作业:
数据处理和基本统计
06
第六讲:
SPSS基本统计分析
(二)
●列联表分析(交叉分析)
1、SPSS列联表分析
列联表分析可以进行非数值型的变量的相关性分析
用一个变量对行进行分类,另一个变量对列进行分类,在行和列交叉点,显示行数据出现的频率
其作用主要表现在:
●根据收集到的样本数据产生二维或者多维的交叉列联表
●在列联表的基础上,对两两变量之间是否存在一定的相关性进行分析
两所中学升学情况分析
现有两所中学的升学数据,据此对两所学校的升学情况进行列联表分析,演剧两所学校的学生升学率之间有无明显的差别
三个变量分别为学校、升学和计数。
把学校定义为字符型变量,用“1”表示甲学校,用“2”表示乙学校。
升学定义为数值型变量,“1”表示升学,“0”表示未升学。
数据如下所示
变量加权:
当数据文件中存在有大量相同的变量值时,增加一个频数变量来表示相同变量值出现的频数,可带来很大的便利,变量加权就可用于设定某个变量为频数变量
2、对分析结果的解读
提交第四次作业:
交叉分析
07
第七讲:
均值比较和T检验
●掌握均值比较分析法
●了解T检验分析法
●均值比较分析法
●如果要对统计的样本按照某个类别计算相应的统计量,如平均数、标准差等。
●如果要检验两个相关的样本是否来自具有相同均值的样本
●以上情况,可以通过均值比较和T检验来完成
2、SPSS均值比较
均值过程计算指定变量的综合描述统计量,包括均值、标准差、总和、方差等,当观测量按一个分类变量分组时,均值过程可以分组计算。
使用均值比较的目的在于比较,因此必须分组求均值
研究工作经验和工作薪水的关系
某公司600名计数和管理岗位的工作经验和工资情况,利用均值比较来分析不同的工作经验是否导致薪水的不同
原始数据参照教材P58页
员工岗位有两个类别,分别为管理岗位和技术岗位,为了方便统计分析,分别用1和0表示
将工作经验从少到多,分别用数字1,2,3,4,5,6表示,员工岗位和工作经验的设置都需要通过设置值标签来完成
打开案例数据文件4.1.3均值过程.sav,并仔细研究其工作岗位和工作经验值标签的设置
分析-比较平均值-平均值,由于需要研究工作经验与薪水的关系,因此薪水作为随工作经验变化而变化的因变量,而工作经验为自变量
分析结果解读:
从分析报告可以发现,随着工作经验的增长,员工每小时的薪水稳定上升,但在大于等于36这项,标准偏差较大,说明薪水的变化大,存在被平均的情况。
标准偏差说明了该类数据中偏离平均值的程度,标准差越大,说明偏离程度越大,反之就越接近平均值
平均值的差异是否显著,需要进一步借助方差分析才能确定
3、单样本T检验
单样本T检验的目的,是利用来自总体的样本数据,推断该总体的均值是否与指定的检验值之间存在明显的差异,是对总体均值的假设检验。
保健品销售量与预测模型比较
某保健品上个月在30各销售网点的销售量如下,根据市场预测模型的分析,该产品在各销售网点的平均销量为90箱,用单样本T检验来分析该产品的实际销量逾市场预测模型是否一致
打开数据文件4.2.3单样本T检验_1.sav
分析-比较均值-单样本T检验
我们需要检验的是销售量,因此将销售量作为检验变量需要检验与预测模型的90箱是否一致,因此在检验变量处填写90
提交第五次作业:
均值检验
08
第八讲:
方差分析
●掌握单因素方差分析
●掌握多因素方差分析
●单因素方差分析
●方差分析是用于两个以上样本均数差别的显著性检验。
由于各种因素的影响,研究所得的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教案 数据 分析 挖掘 实战