spss复习资料整理1.docx
- 文档编号:23235322
- 上传时间:2023-05-15
- 格式:DOCX
- 页数:34
- 大小:142.57KB
spss复习资料整理1.docx
《spss复习资料整理1.docx》由会员分享,可在线阅读,更多相关《spss复习资料整理1.docx(34页珍藏版)》请在冰豆网上搜索。
spss复习资料整理1
第一章
1.SPSS是软件英文名称的首字母缩写,其最初为StatisticalPackagefortheSocialSciences的缩写,即“社会科学统计软件包”。
2.SPSS系统运行管理方式(SPSS的几种基本运行方式)有:
(1)完全窗口菜单运行方式
(2)程序运行管理方式
(3)混合运行管理方式
3.SPSS的界面提供的五个窗口:
数据编辑窗口、结果管理窗口、结果编辑窗口、语法编辑窗口、脚本窗口。
第二章
1.SPSS的文件类型:
语法文件(*.sps)、数据文件(*.sav)、结果输出文件(*.spv)。
2.SPSS数据编辑器的每一行数据称为一个个案(Case),每一个数据代表个体的属性,即变量(Variable)。
3.SPSS变量名的命名规则:
1)必须以英文字母开头,其他部分可以含有字母、数字、下划线(即“-”);
2)变量名尽量避免和SPSS已有的关键字重复,例如sum、compute、anova等;
3)SPSS13及以后版本支持变量名最长为64Byte,即变量名最长为64个英文字符,或者32个中文字符;
4)SPSS变量名不区分大小写,即SPSS认为Name、name、nAme这三个变量名没有区别。
4.变量度量类型:
定量(个数、高度、温度等)、定序(“十分重要”、“重要”、“一般”、“不重要”)、定类(名字、地址、电话等)。
5.列和宽度的区别:
变量宽度:
对字符型变量,该数值决定了你能输入的字符串的长度;
列:
设定该变量数据视图中列的宽度。
6.变量的值标签:
即对数值含义的解释。
例如:
值
标签
1
2
男
女
7.默认的缺失值类型:
数值型类型(.)、字符串类型(空格)。
8.数据文件的合并包括:
纵向合并和横向合并(合并个案和合并变量),合并变量包括一对一合并和一对多合并。
9.SPSS用“(*)”表示变量来自于当前活动数据文件中的变量,而用“(+)”表示将要和当前数据文件进行合并的数据文件中的变量。
10.在合并数据文件之前,所有需要合并的数据文件必须预先按照关键变量进行升序排列。
否则,合并文件程序将失败。
11.(选择题)一对一合并变量时,两个文件都要提供个案;一对多合并时,活动的和非活动的文件都可以作为关键字。
课后练习题:
6.下列可以作为SPSS变量名的是
A).PRENTS12B).1NameC).NOTTRUED).@result
7.SPSS中可以设置工作目录,具体设置可以按照以下菜单:
A).【选项】→【设置】
B).【编辑】→【选项】→【设置】
C).【编辑】→【选项】→【文件位置】
D).【文件】→【选项】→【设置】
8.当合并Student-Infor.sav(参见表2-1)和Student-Scores.sav(参见表2-2)两个数据文件为一个数据集Student-Records.sav时,是增加记录还是增加变量?
(表略,参见P67)
A).增加记录B).增加变量C).都不是D).都正确
9.对上题的文件合并中,那个变量是关键变量:
(对应知识点11)
A)学生IDB).性别C).年龄和班级D).科目E).成绩
10.在合并两个SPSS文件时,正确的说法是:
A).如果是添加变量,SPSS可以显示变量是来源于那个数据文件
B).如果是添加个案,SPSS可以显示变量是来源于那个数据文件
C).合并两个SPSS文件后,将无法辨别个案来自于哪一个文件
D).以上都不正确
第三章
1.可是离散化的作用以及两类方法
作用:
可视离散化用于为定量变量创建分类变量,从而实现连续变量的离散化。
在统计分析中,有时候需要了解总体的大致分布状况,而不需要了解属性的具体信息。
两类方法:
直接输入分割点和根据条件自动生成分割点。
2.数据缺失的可能原因,缺失值的定义以及如何处理缺失值?
1)原因:
在数据收集阶段,收集者没有收集到相应数据;
应答着拒绝回答该问题,比如该问题涉及个人隐私;
该问题对该应答者不适用,比如该问题是针对女性的,而应答者为男性。
2)定义:
缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类,分组,删失或截断。
它指的是现有数据集中某个或某些属性的值是不完全的。
3)如何处理:
首先应该想到重新回到数据收集阶段尽量收集到该数据,如果实在收集不到该数据,再考虑怎么处理缺失值,如果缺失数据不影响到具体的统计分析,则不对缺失值作任何处理(即缺失数据还是作为缺失数据处理),如果缺失数据影响到了具体的统计分析,则必须考虑采取适当方法来填补缺失数据。
3.SPSS提供的填补缺失值的方法有哪些?
(作简要说明)
1)序列均值为取整列数据的均值;
2)临近点均值为去该缺失值临近的几个点的均值,具体几个点由附近点的跨度来设定;
3)临近点的中位数为取该缺失值邻近的几个点的中位数,具体几个点由附近点的跨度来设定;
4)线性插值法应用线性插值法填补缺失值。
用该列数据缺失值前一个数据和后一个数据建立插值直线,然后用缺失点在线性插值函数的函数值填充该缺失值;
5)点处的线性趋势法应用缺失值所在的整个序列建立线性回归方程,然后用该回归方程在缺失点的预测值填充缺失值。
4.什么叫数据校验,作用是什么?
数据校验即查找错误数据或者不一致数据的过程。
作用:
如果数据没有收集到则尽量想办法补全;如果是录入错误则重新录入;如果数据确实错误,则可将这些数据设置成缺失值(即丢弃这些数据不进行分析)。
5.在选择个案If对话框中,构建选择“‘男性1’、‘黑种人2’、‘东北地区1’”的表达式:
性别=1&种族=2&地区=1
第四章
1.统计分析的目的,描述性统计分析方法与推断性统计分析方法有什么不同?
目的:
是研究观察对象总体的特点。
区别:
描述性统计分析方法是指应用分类、制表、图形以及概括性数据指标(如均值、方差)来概括数据分布特征的方法。
儿推断性统计分析方法则是通过随机抽样,应用统计方法把从样本数据得到的结论推广到总体的数据分析方法。
2.描述数据特征的统计量的两大类:
一类表示数据的中心位置,另一类表示数据的离散程度。
3.比较均值、中位数、众数的区别与联系。
均值:
用于数值型的数据,不能用于定类、定序型数据;
易受极端值的影响;
中位数:
主要用于定序数据,不能用于定类数据;
不受极端值影响;
众数:
主要用于定类数据;
不受极端值影响;
可能没有众数或多个众数。
对于数据变量和定序变量,可以用均值、中位数、众数;对于定类数据,只有众数。
4.对极差、方差、标准差作解释。
极差反映了变量的变异范围或离散幅度,在相同样本容量的两组数据中,全距大的一组数据比全距小的一组数据要分散。
方差和标准差越大,变量值之间的差异越大,距离平均数这个“中心”离散越大;越小,则这些数据更接近平均值。
5.分位数的类型,各自的含义。
四分位差是什么,大小说明什么?
百分位数:
一百等份,即P1.P2.P3.P4……P100;四分位数将观测数值按从小到大进行排序,然后分成四等份,出于三个分割点位置的观测值就是四分位数,即Q1.Q2.Q3;十分位数将观测数值按从小到大进行排序,然后分成十等份,出于九个分割点位置的观测值就是十分位数,即D1.D2.D3.……D9。
四分位差通常为Q3和Q1的差,用来衡量观测值的离散程度,四分位差越大则说明所观测的数据越分散,越小则说明所观测数据越集中。
6.分布的形状有偏度和峰度。
偏度是用来描述变量取值分布的偏斜方向,它衡量分布对称与否、分布不对称的方向和程度,取值一般在-3和3之间;峰度是用来描述变量取值分布形态陡缓程度的统计量,是指分布图形的尖峭程度或峰凸程度,取值范围可正可负可为零。
7.标准化分数也叫标准化值或Z分数,用于对变量的标准化处理。
意义:
变量值X,Z分数表示大于或小于平均数几个标准差,可用来比较从两个不同单位抽取出来的两值。
8.统计图
定类型:
饼图、条形图(【分析】→【描述统计】→【频率】下),帕累托图(【分析】→【质量控制】→【排列图】)。
数值型:
茎叶图、箱图、直方图(在【分析】→【描述统计】→【探索】下)。
9.对茎叶图、箱图的解释。
茎叶图是描述定量变量的一种图形方式,它除了能够给出直方图所给出的分布的信息外,还能够还原大部分原始数据的信息。
箱图是总结五数(最小值、第一四分位数、中位数、第三个四分位数、最大值)的图形表现。
(用‘o’表示离群值,用‘*’表示极端值,一般极端值会大一些。
)(要求会读图,P132-133)。
课后练习
3.说明茎叶图和直方图区别。
如果想尽可能展现原始数据的信息,应该采用哪一种图形?
茎叶图:
茎叶图是描述定量变量的一种图形方式,它除了能够给出直方图所给出的分布的信息外,还能够还原大部分原始数据的信息。
优点:
变量取值较多,不影响其显示效果;缺点:
如果观测值较大,显示效果不好。
直方图:
应用于连续型数据,表现在图形上直方图的各个正方条形之间没有任何间隔。
优点:
变量值较多,观测值较多不影响显示效果,概括性好,反映次数分布直观;缺点:
有信息损失,组数的确定带有一定的主观性。
如果想尽可能展现原始数据的信息,应该采用茎叶图。
4.说明帕累托图和直方图的区别。
帕累托图:
直方图:
8.为了生成某个给定变量的总和(即“total”),应该选用哪一个汇总统计量:
A)meanB).sumC).medianD).mode
补充:
1.(填空)单因素方差分析中,除基本分析外,一般还应做方差齐性检验和多重比较。
2.中心趋势的描述:
均值、中位数、众数、5%截尾均值;
离散趋势的描述:
极差、方差、标准差、分位数和变异指标。
3.P262。
会读图。
1、“文件”“打开”可以打开数据文件、语法文件、输出文件和脚本文件。
2、SPSS的内部文件?
数据文件的扩展名为:
“*.SAV”;
语法文件的扩展名为:
“*.SPS”;
输出文件的扩展名为:
“*.SPV”(以前的版本为“*.SPO”);
脚本文件的扩展名为:
“*.SBS”;
生产工作文件:
“*.SPJ”。
3、“文件”“新建”可以创建数据文件、语法文件、输出文件和脚本文件。
4、“文件”“显示数据文件信息”“工作文件”:
可显示变量信息和变量值信息。
变量信息(VariableInformation)包括:
变量名(Variable)、位置(Position)、变量标签(Label)、度量标准(Measurementlevel)、角色(Role)、宽度(ColumnWidth)、对齐(Alignment)、打印格式(PrintFormat)、书写格式(WriteFormat)。
变量值(VariableValues)包括:
变量值(Value)、值标签(Label)。
5、“文件”“显示数据文件信息”“外部文件”:
可显示文件信息和变量信息。
其中文件信息(FileInformation)包括:
来源(Source)、类型(Type)、创造日期(CreationDate)、标签(Label)、字符编码(CharacterEncoding)、文件内容(FileContents)、数据信息(DataInformation)。
变量信息(VariableInformation)包括:
变量名称(Name)、位置(Position)、变量标签(Label)、度量标准(Measurementlevel)、格式(Format)、宽度(ColumnWidth)、对齐(Alignment)。
*在“工作文件”中,不能直接看到记录数,如果想看到记录数,只有在浏览器中直接向下拖直到最后。
但是,在“外部文件”中,不打开文件,但是可以直接在浏览器中看到记录数。
*“文件”“另存为”“变量”,在对话框中可以选择“保留”或“不保留”某些变量。
6、点击“文件”“将文件标识为只读”状态下可以对数据修改,但不会保存。
只有在点击“将文件标识为读写”后可以修改并保存。
“将文件标识为只读”和“将文件标识为读写”两种状态会相互切换。
7、数据编辑器、语法编辑器、输出查看器、脚本编辑器都可以同时打开多个。
8、关闭所有的输出查看器后,并不退出SPSS系统。
数据编辑器都退出后将关闭SPSS系统。
关闭所有的数据文件时并不一定退出SPSS系统。
说明:
仅新建一个数据文件,并没有保存,即没有生成数据文件。
此时关闭其它所有已保存的数据文件时,不退出SPSS系统(但仍有一个数据编辑器窗口,即新建的数据文件,即使还没有定义仅仅是新建)。
9、可以在不同的数据编辑器窗口打开同一个数据文件。
对话框中提示“恢复为已保存”或“在新窗口中打开”选项。
10、测量尺度(度量标准)的修改包括两种方法:
临时修改和永久修改。
临时修改,如做图做表时在对话框中修改,可以满足当时的需要,但退出对话框之后,仍恢复为之前的状态。
永久修改,在变量视图中修改。
*变量的数据类型不可以进行临时修改,只能在变量视图中进行永久修改。
11、度量标准包括三种:
度量(Scale)、序号(Ordinal)和名义(Nominal)。
在选择度量标准时,一般情况下只考虑变量的类型,即变量应该作为连续变量(度量)还是分类变量(序号和名义),也就是说,没有必要细分名义和序号,这对之后的统计分析没有影响。
12、分类变量又称为定性变量,其变量值是定性的,表现为互不相容的类别或属性,如血型、性别、职业等。
其可分为标记变量(二分类变量),集合变量(名义变量)和排序变量(等级变量、等级变量)。
作图时横坐标选择分类变量或名义变量(变量的唯一值较少者)。
13、变量名的定义。
1)、变量名最长不超过64个字节(32个汉字)。
2)、首字符必须为字母或汉字,不能是数字。
变量名不能以下划线“_”或小数点“.”或减号“—”结尾。
变量名尽量不用汉字,因为在语法文件中当引用变量时输入汉字会比较复杂,如果变量名用字母则比较简单。
小数点可以包含在变量名中,但是不允许放在最后。
3)、变量名中不能有空格或某些特殊符号,如“?
”,“*”,“!
”和“’”。
4)、变量名不能与SPSS的关键字相同,即不能用ALL、AND、BY、EQ、GE(大于等于)、GT(大于)、LE(小于等于)、LT(小于)、NE、NOT、OR、TO、WITH等作变量名。
5)、对变量名英文字母的大小写不做区分。
6)、在同一数据文件内,变量名不能重复。
7)、长名字如果在输出显示时需要折行,系统会自动按名字中的下划线“_”或者“.”位置折行。
8)、首字符为“$”是系统变量名。
14、变量标签的定义。
1)变量标签最多可长达256个字符(128个汉字)。
2)作用:
对变量名进行说明。
3)可以采用任意能输入的字符标签(包括空格)
4)在变量标签输入时如果要换行,则在想换行的地方输入“\n”.
*变量标签可以有空格,与变量名不同。
15、变量值标签的定义。
1)、值标签做多最多可以有128个字符。
2)、作用:
用来解释变量值的含义,此功能对等级变量或者定性变量编码时尤其有用。
3)、值标签的内容和数据文件一起保存。
*变量标签和变量值标签过长时,系统会在一个单词结束时自动换行,但是如果要自定义换行位置,先在变量视图的标签对话框中选中该标签,然后在自己选定的位置加“\n”,最后单击“更改”,可以在浏览器窗口中查看结果。
16、变量类型包括8种:
数值型、逗点数值型、圆点数值型、科学计数法型、日期型、美元记号型、设定货币、字符型。
系统默认的为数值型。
常用的为数值型、日期型和字符串和时间型4种。
17、当变量类型为字符型时,度量标准不能为尺度(度量)。
变量类型(数值、字符串、时间和日期)和度量标准(度量、序号和名义)的组合一共有11种。
18、数据编辑器窗口包括:
标题栏、菜单栏、工具栏、数据值编辑区、信息区(数据视图和变量视图)状态栏。
数据编辑窗口内包含变量和观测。
变量编辑窗口内包含属性名和变量。
19、浏览器窗口(结果查看器)包括:
标题栏、菜单栏、工具栏、输出区(标题窗/输出导航大纲窗口和内容窗)、状态栏。
20、定量变量的属性包括:
变量名(Name)、类型(Type)、宽度(Width)、小数(Decimals)、标签(Label)、值(Values)、缺失值(Missing)、列宽(Columns)、对齐(Align)、度量标准(Measure)、角色(Role)。
21、选择个案的方式包括:
“数据”“选择个案”
1)、全部个案(默认)。
2)、按条件选择。
(如:
age>=45)
3)、随机个案选择。
4)、基于时间或个案全距选择(按观察单位的编号范围)。
5)、使用筛选器变量。
筛选器变量名为“filter_$”,其值仅有1和0。
1表示被选中的观察单位,“0”表示未被选中的观察单位。
使用该选项时,数据文件中应该有此变量,如果没有,应该先产生该变量,即用IF语句。
如Ifgender=”m”,系统自动产生filter_$变量,选中男性,值为1,这些个案前没有删除符号,未选中女性,值为0,这些个案前有删除符号。
22、变量集:
“实用程序”“定义变量集”
当变量太多时,根据自己的要求选择所需的变量而创建自己的变量集。
变量集中的变量可以在数据编辑器中以及对话框中显示。
变量集的变量随着数据文件保存。
变量集的名称最多可以有64个字节,可以使用空格。
23、使用SPSS进行数据分析的基本步骤?
1)、输入数据到SPSS。
A、通过数据编辑窗口直接用键盘输入。
B、通过读取保存的数据文件(包括Excel文件、Access数据库、文本文件、SPSS数据文件等等。
)
2)、分析前数据准备。
如数据核查、筛选、数据转换、编码等工作(Data/Transform菜单)
3)、选择分析方法和分析过程(Analyze或者Graphs菜单)。
4)、选择分析的变量和观察个体(变量选择菜单/DataCase菜单)。
5)、运行分析过程,浏览结果(Viewer窗口/SmartViewer)。
24、状态栏(右下角)包括:
命令状态(执行过什么命令)、过滤状态(个案的删选)、权重状态和拆分文件状态等。
25、1)做统计图表时,对话框基本组件是:
原变量列表和目标变量列表。
2)对话框中可以有1个或多个目标变量列表,即用户选择的待分析的变量列表。
原变量列表中显示的变量不是数据集中的所有变量,而是只有你选中的这个过程所允许的变量列表。
3)对话框列表中变量显示方式有“显示变量名称”和“显示变量标签”(默认)两种,“显示变量标签”的格式为变量标签[变量名]。
4)对话框列表中可以对原变量进行排序,排序的方式包括:
按字母顺序排列、按文件顺序排序(默认)、按度量水平排列。
*通过右击变量列表自行选择。
5)对话框中包括确定、粘贴、重置、取消和帮助5个按钮。
确定按钮:
运行过程并关闭对话框。
粘贴:
生成命令语法并把语法粘贴到语法文件中。
重置:
将对话框内所有设置的状态重置为缺失(也即默认)状态。
取消:
关闭对话框。
帮助:
显示帮助文件。
26、在对话框中选择变量的方法:
1)用鼠标在原变量列表中选中变量,然后拖入目标变量列表中(选择单个变量)。
2)点击选中原变量列表中的变量,通过“è”导入目标变量列表中(如果是要选中多个连续的变量时,单击第一个,然后按“Shift”+单击最后一个,即可选中多个连续连续;如果是多个不连续的变量,则用“Ctrl”+单击选中)。
3)在原变量列表中双击要选入目标变量列表中的变量,即可选入,此时要求目标变量列表中仅有一个变量。
27、常用图表包括:
条图、饼图、直方图、散点图和箱图。
条图:
用于对分类变量进行汇总,直条长短表达统计指标大小。
饼图:
用于各个比例之间或者各个百分比之间的比较。
直方图:
用于显示单个连续变量的分布情况,是对称分布还是偏态分布,和正态分布拟合的程度等等。
散点图:
用于描述多个连续变量之间的关系。
箱图:
用于描述资料的离散程度。
(箱图包括5个基本量:
最大值、P75、中位数、P25、最小值)
28、排序个案?
排序个案是指根据一个或多个变量的值对数据文件中的个案进行排序。
排序方式包括升序排列和降序排列。
当选择了两个以上的排序变量,其排序结果将按变量在Sortby栏中选入的顺序依次进行,即先按第一个排序变量排序,再按第二个排序变量排序,然后依次进行。
29、可视离散化?
目的:
在帮助用户把现有变量的连续值进行分组的基础上,再把新变量创建到数目有限的不同类别当中。
作用:
1、提供了一个图形的界面,能够方便的把一个连续变量变为一个等级变量。
2、可以将一个等级较多的等级变量变为一个等级较少的等级变量。
30、计算变量?
计算变量是指根据已存在的变量,经函数计算后,建立新变量或替换原变量。
(由一个或者多个变量通过它的数值转换来创建一个新的变量,即通过计算产生新变量)
包括:
1)计算数值或字符串的值。
2)创建新变量(可以指定变量的类型和标签)
3)用新变量去替换老变量。
4)根据逻辑条件有选择的选出一部分观测来建立子集,然后再根据该子集创建新变量。
5)可通过对话框中SPSS的内置函数(统计函数、分布函数、字符串函数等等)建立一个表达式来进行计算。
*题目:
按照一个条件来找满足该条件的观测,比如demo.sav文件中,年龄在50岁以上的女性。
写出条件表达式:
“目标变量”=age>50。
如果满足该条件表达式的则在目标变量中返回1,否则返回0.
31、指定窗口?
活动窗口?
1)当你打开多个窗口时,只有当前窗口为活动窗口,即最后点击的窗口,此窗口标题栏为深蓝色,且遮盖其它窗口。
2)对于不同类型的窗口,指定窗口不同。
3)数据编辑窗口的指定窗口即为当前窗口(活动窗口),此时窗口标题栏的左上角图标上会显示一个绿色的“+”。
4)输出窗口的指定窗口为最后打开的那个窗口。
如打开了输出1、输出2、输出3三个窗口,指定窗口为最后打开的输出3窗口。
5)SPSS运行时的输出结果只输入输出指定窗口。
指定窗口的标记为标题栏显示为深蓝色,且左上角图标上有一个绿色的“+”。
6)如果要将某窗口改为指定窗口,则点击该窗口,选择“实用程序”“指定窗口”。
7)语法窗口同输出窗口。
32、加权个案:
给个案加以不同权重再进行统计分析。
1)、加权个案的值代表每一个分类或每一个区间组段的频数(数目)。
2)、加权变量为“0”、“负数”或“缺失值”时不参与统计分析,仅大于0时才能进行统计分析。
3)、加权变量可以是小数值,但是SPSS会将小数值四舍五入变为整数后作为权重。
33、试说明下列结果的分析过程?
1、第一步:
选择“数据”à“拆分文件”,在“分割文件”对话框中,首先将变量“marital”从原变量列表中选入“分组方式”列表中,然后将变量“gender”从原变量列表中选入“分组方式”列表中,然后点击“确定”。
2、第二部:
选择“分析”à“描述统计”à“频率”,然后在“频率”对话框中,将变量“retire”选入目标变量列表中,点击确定。
浙江财经学院学年第一学期
《SPSS统计分析软件》课程期末考试试卷(A卷)参考答案及评分标准
答案:
1.建立相应的数据文件(5分)
操作过程:
打开新建数据文件,定义变量名、变量类型、变量名标签、变量值标签等。
录入数据。
结果:
变量名
变量类型
变量名标签
变量宽度
变量值标签
序号
字符型
8
性别
数值型
8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 复习资料 整理