spss教程第一章数据文件的建立及基本统计描述.docx
- 文档编号:30466174
- 上传时间:2023-08-15
- 格式:DOCX
- 页数:54
- 大小:511.17KB
spss教程第一章数据文件的建立及基本统计描述.docx
《spss教程第一章数据文件的建立及基本统计描述.docx》由会员分享,可在线阅读,更多相关《spss教程第一章数据文件的建立及基本统计描述.docx(54页珍藏版)》请在冰豆网上搜索。
spss教程第一章数据文件的建立及基本统计描述
第一章数据文件的建立及基本统计描述
在社会各项经济活动和科学研究过程中,经常获得许多数据,而这些数据中包含着大量有用的信息。
若要准确地、科学地提取这些信息,就要应用各种统计分析方法,其中最基本的方法是数据的基本统计描述。
通过数据的基本统计描述,可以得到数据的分布状况,数据的主要特征值,时间序列的趋势性,是否存在异常值以及数据的大致图形等。
当然,要实现对数据的统计分析和描述,首先要从建立数据文件开始。
这一章主要介绍数据文件的建立和数据的基本统计描述方法。
§1.1SPSS的启动及数据库的建立
§1.1.2SPSS简介
SPSS(StatisticsPackageforSocialScience)forWindows是一种运行在Windows系统下的社会科学统计软件软件包。
SPSS软件包集数据整理、分析过程、结果输出等功能为一体,采用窗口操作界面,统计分析方法涵盖面广,用户操作使用方便,输出数据表格图文并貌,并且随着它的功能不断完善,统计分析方法不断充实,大大提高了统计分析工作的效率。
从1968年由美国斯坦福大学开发使用至今,已经拥有全球数以万计的用户,分布在通信、医疗、银行、证券、保险、制造、商业、市场研究、科学教育等众多的行业领域,成为世界上应用最广泛的专业统计软件之一。
SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等,具体内容包括描述统计、列联分析,总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类,每个类中还有多个专项统计方法。
SPSS设有专门的绘图系统,可以根据使用者的需要将给出的数据绘制各种图形,能够满足用户的不同需求。
一.SPSS的运行方式
SPSS提供了3种基本运行方式:
完全窗口菜单方式,程序运行方式、混合运行方式。
程序运行方式和混合运行方式是使用者从特殊的分析需要出发,编写自己的SPSS命令程序,通过语句直接运行。
这里只介绍完全窗口菜单管理方式,这种操作方式简单明了,除数据输入工作需要键盘外,大部分的操作命令、统计分析方法的实现是通过菜单、图标按钮、对话框来完成的,非常适用于一般的统计分析人员和一般统计方法的应用者。
SPSS中使用的对话框主要有两类,一类是文件操作对话框,文件操作对话窗口操作与Windows应用软件操作风格一致。
另一类是统计分析对话框,统计分析对话框可以分为主窗口和下级窗口,在该类对话框中,选择参与分析的各类变量及统计方法是对话框的主要任务。
有关对话框的详细操作将在后面的统计方法的实验中解释。
二.SPSS的实验环境要求
1、系统运行环境
SPSS10.0以上版本软件包可以工作在两种模式下,单机模式和作为网络系统的用户界面模式。
SPSSforWindows软件包可以运行在微软公司的Windows98、WindowsNT4.0、WindowsME、Windows2000和WindowsXP操作系统之下。
由于统计分析软件的数据量比较大,所以系统运行需要大于16M以上空间。
2、辅助软件环境
SPSS可以直接将SPSS数据文件保存为Excel工作表,也可以直接打开一个Excel工作表,因此,为了方便数据录入(许多人对Excel工作表编辑比较熟习),应在操作系统下安装一个Excel软件。
另外,许多数据在处理之前可能保存在某个数据库中,例如FoxBase、Sybase、SQL_Server、Oracle等等,如有需要从数据库中获取数据的分析,应在操作系统下安装相应的数据库管理系统。
三.SPSS的主要界面
SPSS的主要界面有数据编辑窗口和结果输出窗口。
数据编辑窗口与微软的Exdel类似,但SPSS的统计功能更多。
SPSS的结果输出窗口是显示统计分析的结果,此窗口的内容可以以结果文件.spo的形式保存。
数据编辑窗口和结果输出窗口的详细描述将在有关SPSS的数据文件建立的内容中查到。
四.SPSS的帮助系统
SPSS对一些基本模块中的统计提供了帮助,可以通过单击Help菜单中的StatisticsCoach命令,选择所需要的统计指导。
§1.1.2启动SPSS软件包
当用户在操作系统下运行SPSS软件后,计算机屏幕上出现一个对话框,如图1.1所示:
图1.1SPSS启动后操作对话框
对话框包括一个六选一单选对话框和一个复选对话框,其内容为:
●Runthetutorial运行操作指南;
●Typeindata输入数据选项,建立新的数据集时可选择此项;
●Runanexistingquery运行一个已经存在的数据文件选项;
●CreatenewqueryusingDatabaseWizard用数据库处理工具建立新文件;
●Openanexistingdatesource打开一个已经存在的数据文件;
●Openanothertypeoffile打开其他类型的文件。
●Don’tshowthisdialoginthefuture是一复选对话框,选中该复选项后,下次启动SPSS时将不会显示对话框,直接显示数据编辑窗口。
§1.1.3数据文件的建立
当对话框选择Typeindata后,点击OK,系统将显示出SPSS软件包数据编辑主窗口,数据文件的建立就是在数据编辑窗口中完成的。
数据编辑窗口可以显示两张表,分别是DataView(见图1.2)和VariableView(见图1.3),通过点击下端的2个同名窗口标签按钮实现相互切换。
数据编辑区是SPSS的主要操作窗口,是一个二维平面表格,用于对数据进行各种编辑;标尺栏由纵向标尺栏和横向标尺栏,横向标尺栏显示数据变量,纵向标尺栏显示数据顺序(如时间顺序)。
DataView表可以直接输入观测数据值或存放数据,表的左端列边框显示观测个体的序号,最上端行边框显示变量名。
VariableView表用来定义和修改变量的名称、类型及其他属性,如图1.3所示。
图1.3VariableView表
在VariableView表中,每一行描述一个变量,依次是:
Name:
变量名。
变量名必须以字母、汉字及@开头,总长度不超过8个字符,共容纳4个汉字或8个英文字母,英文字母不区别大小写,最后一个字符不能是句号。
Type:
变量类型。
变量类型有8种,最常用的是Numeric数值型变量。
其它常用的类型有:
String字符型,Date日期型,Comma逗号型(隔3位数加一个逗号)等。
Width:
变量所占的宽度。
Decimals:
小数点后位数。
Label:
变量标签。
关于变量涵义的详细说明。
Values:
变量值标签。
关于变量各个取值的涵义说明。
Missing:
缺失值的处理方式。
Columns:
变量在DateView中所显示的列宽(默认列宽为8)。
Align:
数据对齐格式(默认为右对齐)。
Measure:
数据的测度方式。
系统给出名义尺度、定序尺度和等间距尺度三种(默认为等间距尺度)。
如果输入变量名后回车,将给出变量的默认属性。
如果不定义变量的属性,直接输入数据,系统将默认变量Var00001,Var00002等。
定义了变量的各种属性后,回到DataView表中,就可以直接在表中录入数据。
输入数据后可以点击Save或Saveas作为数据文件保存。
另外对于统计分析的结果也可以作为文件保存起来。
为了在统计分析过程中能有效的利用其它软件产生的数据,SPSS软件编辑窗口除可以使用*.sav扩展名数据文件,还可以直接打开和保存下述类型的文件。
SPSSDOS版本产生的数据文件*.sys;
Excel报表程序产生的数据文件*.xls;
DBASE数据库格式文件*.dbf;
SAS统计软件产生的数据文件。
§1.2数据的编辑与整理
当录入数据之后,就可以对原始数据进行整理和分析,关于数据的整理和分析都是在数据窗口完成的。
下面将介绍SPSS统计分析软件在数据窗口的主要操作方式和菜单相应的功能。
§1.2.1数据窗口菜单栏功能操作
数据编辑窗口的主菜单如图1.4所示,主菜单中的具体功能包括:
图1.4SPSS主菜单
1.File:
文件操作。
2.Edit:
文件编辑。
3.View:
视图编辑。
4.Data:
数据操作。
5.Transform:
数据转换。
6.Analyze:
统计分析方法。
7.Graphs:
图形编辑。
8.Utilities:
实用程序。
9.Windows:
窗口控制。
10.Help:
帮助。
在统计分析过程中常用的功能主要集中在数据操作、数据转换、数据分析、统计图形的建立与编辑等操作。
§1.2.2Date数据功能
数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能,如图1.5所示。
这个菜单是SPSS统计软件数据整理的特有功能菜单。
它的功能包括:
对变量、观测量的编辑处理;对变量数据的变换;对观察量数据整理。
这些功能为各种统计分析要求提供极其灵活了数据整理功能,用户可以根据不同统计分析对数据的要求对数据进行整理。
一、定义和编辑变量、观测量的命令
DefineVariableProperties用于定义变量属性;
CopyDataProperties由外部文件和工作文件拷贝数据变量和属性;
DefineDates定义或编辑日期变量格式;
InsertVariable在数据编辑窗口插入一个变量;
InsertCase在数据编辑窗口插入一个观测量;
GotoCase光标跳转到某一指定观测量。
二、变量数据变换的命令
SortCases对观测量进行排序;
Transpose对观测量进行转置;
Restructure对现有的观测量进行重新构造,形成新格式的数据文件;
MergeFile把外部文件数据合并到工作文件中;
Aggregate对数据进行分类或不分类汇总,产生新文件或代替工作文件。
IdentifyDuplicateCases标识重复观测量;
OrthogonalDesign进行正交设计。
三、观察量数据整理的命令
SplitFile拆分数据文件的观测量,观测量进行条件分组;
SelectCases选择观测量;
WeightCases对观测量进行加权处理。
通过选择上述命令,可以实现对数据的整理编辑。
§1.2.3Transform变换及转换功能
数据编辑窗口的Transform菜单为用户创建和定义复杂的数据提供了方便的功能,如图2.3所示。
它与Data菜单共同使用,可对基本的数据进行重新编辑,形成新的变量和观测量。
这个菜单主要对变量进行操作,分为三部分的功能。
这些功能也为各种统计分析要求提供极其灵活了数据处理功能。
图1.6Transform菜单项示意图
一.通过基本变量创建各种新变量;
Compute计算产生新变量,SPSS提供了10类100多个函数,通过该菜单可以用表达式产生一个新变量;
RandomNumberSeed创建随机数种子;
CreateTimesSeries创建时间序列变量;
二.创建各种参数变量;
Count创建一个计数变量,用于统计计数;
Recode对变量值重新编码;
RankCases为观测量排秩,求得的秩在数据窗口作为一个新变量保存;
CategorizeVariables建立新的分组变量,使数据分成若干个组;
AutomaticRecode对变量值自动编码,产生一个连续的变量值编码;
ReplaceMissingValues创建替代缺失值变量;
三.运行其它自定义的转输程序。
RunPendingTransform运行其它转换程序。
在一般的情况下,通过Date菜单和Transform菜单的操作就可以实现对原始数据的整理和变换。
§1.2.4数据的编辑
在DataView中,用鼠标左键单击数据表左边框的观测个体序号,这一行值就会被选中,用鼠标左键单击上边框的变量名,这个列就被选中,和其它Windows中的操作类似,也可以用鼠标对选中一部分单元格,选中的行、列、单元格后,单击鼠标右键,可以对它们进行复制、删除、剪切等操作。
如果需要对已经输入的数据进行修改,就要对已经存在的数据进行编辑,SPSS有许多数据编辑功能。
下面介绍几种常用的数据编辑功能。
一、插入一个新观测量(Case)
插入一个新观测量(数据)的命令是InsertCases。
在数据窗口主菜单上单击DateInsertCases命令,可以在光标所在位置的前上一行插入一行新的观测个体,可以输入新的观测数据。
二、查找指定的观测量(数据)
查找指定的观测数据的命令是GotoCase。
在数据窗口单击DateGotoCase,弹出一个对话框,如图1.7所示:
输入要找的观测量的序号后,点OK按钮,数据表中光标就会指到选定的观测量个体。
图1.7GoToCase对话框
三、观测数据排序
给观测量数据排序的命令是SortCases。
在数据窗口单击DateSortCases,打开SortCases对话框(见图1.8)。
图1.8SortCase对话框
从对话框左侧的变量列表中选择排序变量,点击右箭头按钮加入Sortby框中,然后在SortOrder栏中选择排序顺序:
Ascending观测个体按照选定的排序变量值由小到大的升序排列;
Descending观测个体按照选定的排序变量值降序排列。
注意:
观测个体.排序变量可以是一个或多个,当选择多个排序变量时,首先按第一个变量值排序,然后在第一个变量取值相同的那些个体中再按第二个变量值排序,依次类推。
注意在排序的时候,观测个体整行的值一同变到新位置,而不是只有排序变量那一列变动。
但数据表中左边框上的序号并不随着变动,因此,为了保留原始数据的信息,最好自己定义一个变量来记录观测个体的序号。
四、在数据中选取子集
如果需要从数据文件中选取一部分数据,可以在数据编辑窗口单击Data→SelectCase,打开SelectCase对话框,如图1.9所示:
图1.9SelectCase对话框
在该对话框的Select栏中选择挑选数据子集的方式(单选):
●Allcase:
选择所有数据;
●Ifconditionissatisfied:
按指定条件选择数据。
单击If按纽,打开SelectCase:
If对话框,如图1.10所示,先选择变量,然后定义条件。
●RandomSampleofcases:
对观察值进行随机抽样。
单击Sample按纽,打开SelectCase:
Randomsample对话框。
如图1.11所示。
图1.10SelectCase:
If对话框
在SampleSize栏中有两种选择方式,一种是大概抽样(Approximately),即键入抽样比例后由系统随机抽样;另一种是精确抽样((Exactly),要求输入从第几个观察值起抽取多少数据。
图1.11SelectCase:
RandomSample对话框
●Basedontimeorcaserange:
顺序抽样。
单击Range按纽,打开SelectCase:
Range对话框,用户自行定义从第几个观察值开始抽到第几个观察值结束。
●Usefiltervariable:
用指定变量作过滤。
先选择一个变量,系统自动在数据管理器中将该变量值为0的观测单位标上删除记号,系统对标有删除记号的观测单位不作分析。
选择了挑选数据子集的方式后,单击OK,在数据窗口可看到新的变量filter_s。
如在数据文件SY-1中,选择年龄大于48岁的人作为选择子集。
则满足条件的年龄大于48岁的相应的新变量数据为1,否则为0。
五、数据分类汇总(数据分组汇总)
用户可以根据需要对数据按指定的变量的数值进行归类分组汇总。
以数据库SY-2两个班的学生成绩为例,如果按照性别对数学成绩进行汇总,可以使用分类汇总命令实现。
具体操作如下。
1.指定分类变量和汇总变量。
打开数据库SY-2,在数据窗口单击DateAggregate命令,打开AggregateDate对话框。
如图1.12所示:
图1.12AggregateDate对话框
2.在变量名列表框中选择分类变量”性别”进入BreakVariable(s)。
3.在变量名列表框中选择汇总变量”Math”进入AggregateVariable(s)。
4.单击Function按纽,打开AggregateDate:
Function对话框,如图1.13所示。
在此对话框中可以选择平均值、数据和、标准差的形式,特别值形式,百分数形式、频数形式等其中之一的方法进行分类汇总。
选择分类汇总的函数形式后返回AggregateDate对话框中。
图1.13AggregateDate:
AggregateFunction对话框
5.在AggregateDate对话框中指定汇总文件的保存路径。
有两种选择:
一种是选中创建新数据文件,通过File按纽,重新指定结果文件名。
一种是替代原来数据文件,用分类汇总结果覆盖当前编辑窗口的数据。
6.单击Name&Label按纽,可以重新指定结果文件中的变量名并加入变量标签。
SPSS默认的结果文件中的变量名为原变量名最后加上_1.
7.如果希望在结果文件中保存各分类组的数据个数,可以选择Savenumberofcaseinbreakgroupasvariable项。
最后单击OK,可得相应的数据文件。
六、缺失值的替代方式
如果用户希望对缺失值进行定义,可以采用以下的操作:
在数据窗口点击TransformReplaceMissingValues,打开ReplaceMissingValues,对话框,如图.1.14.所示:
图1.14ReplaceMissingValues对话框
在变量中选择具有缺失值的变量进入NewVariable框内,系统可以自动产生替代缺失值的新变量,也可处定义新变量。
然后在Method的下拉菜单中选择缺失值的替代方式。
五种方式依次是:
Seriesmean用该变量所有非缺失值的平均值替代缺失值;
Meanofnearlypoint用缺失值相邻点的的非缺失值的平均数据替代缺失值;
Medianofnearlypoint用缺失值相邻点的的非缺失值的中位数替代缺失值;
Linearinterpolation用缺失值相邻点的的非缺失值的中点值替代缺失值;
Lineartrendatpoint用线性拟合方式替代缺失值。
七、数据秩(序)的确定
如果用户需要对已有的数据变量排秩(序),如对数据SY-1中两个班的数学成绩分别排出名次,可以在数据窗口采用以下操作。
1.单击TransformRandCases,打开RandCases对话框,如图1.15所示:
图1.15RandCases对话框
2.从左边变量名列表框中选择变量”数学”(也可选择多个变量)进入Variable(s)框中,选择变量”班级”进入By框中,则系统排序时将按照进入By的变量值“班级”进行分别排序。
3.单击Ties按纽,选择Ties(Ties是指两个或两个以上的数据相等的情况)的处理方式。
由于秩与数据个数是一一对应的,当数据有相同的时,确定它们相应的秩有三种处理方式:
对应秩的Mean平均值、Low最小值和high最大值。
如本例选择最大值。
选择后返回在主对话框。
点击OK,就可以在数据窗口看到排序结果。
RankTypes按纽提供排秩方式。
单击RankTypes按纽,打开types对话框,从中选择排秩类型,排秩类型从左到右依次是:
Rank普通排序(系统默认),新变量的值就是秩;Fractionalrankas%累计百分数排序;Savagescore以指数分布为基础的原始分排序;SumofCaseweights以分组例数之和的权重排序;Fractionalrank以秩变量除以分组例数之和排序;Ntile先给定一个大于1的整数,系统按照此数的范围确定秩。
§1.2.5SPSS对变量的编辑
一、插入一个新变量
插入一个新变量的命令是InsertVariable。
在数据窗口单击Data→InsertVariable,会在光标所在位置的前一列插入一个新的变量,变量名字和属性可以在VariableView窗口中定义。
二、已存在的变量生成新变量
对于已存在的数据变量,根据需要进行计算生成新变量的命令是Compute。
在数据窗口单击TransformCompute,打开ComputeVariable对话框,如图1.16所示。
在对话框左上方TargetVariable栏中,键入即将生成的新变量的名称,并单击Type&Lable按纽确定变量标签及数据类型。
对话框的左下栏中给出了数据文件中所有可用的变量列表,我们可以用右箭头按钮从中选取所需的变量进入右上方的NumericExpression栏中,该栏存放运算表达式,运算表达式中所需要的常用函数可以从下的Functions列表中直接选取。
这些常用函数(见附录2)和其它语言中的函数名称类似,在框中按字母顺序排列,用鼠标选中某个函数,用Functions右面的上箭头按钮加入数值表达式中,对话框中间是一个小键盘,可以用来输入数字、运算符号等。
ComputeVariable对话框的下面还有一个if按钮,可以选一部分满足某种条件的观测个体来做运算,不满足条件观测,其新变量值缺失。
图1.16ComputeVariable对话框
如图1.16表示的是数据SY-2中每个学生的数学和物理总成绩。
在ComputeVariable对话框中填好新变量名称和运算表达式后,点击OK按钮,就可以在数据文件中看到,已经生成了一个新变量Total。
三、产生计数变量
如果用户需要对满足某项条件的数据进行计数,可以使用Count命令。
以学生成绩数据SY-1为例,说明具体操作步骤:
在数据窗口单击TransformCount,打开CountOccurrenceofValuewithinCases对话框,如图1.17所示:
图1.17CountOccurrenceofValuewithinCases对话框
先在TargetVariable中指定一个变量(可以是已经存在的变量或新变量),并定义变量标签,然后指定要统计的变量加到NumericVariables框中,再单击DefineValues按纽,打开ValuetoCount对话框。
如图1.18所示:
图1.18CountValueswithinCases:
ValuetoCount对话框
在上面的对话框中,确定需要计数的数值,其Value值的设置项依次是:
Value:
输入某个值为清点对象;
System-missing:
以系统的缺失值为清点对象;
System-orusermissing:
以系统或用户指定的缺失值为清点对象;
Range:
指定数值的计数区域:
其中包括:
()through()在框内指定下限和上限
l
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 教程 第一章 数据文件 建立 基本 统计 描述