SPSS轻松学:实战案例
上QQ阅读APP看书,第一时间看更新

第一节 数据属性及定义

只要打开SPSS软件,系统就会自动生成一个空数据文件,大家根据自己的需要先在数据编辑窗口的变量视图中定义变量,然后录入数据并保存即可。图2-1就是一个打开的空白数据文件的数据录入界面。

图2-1 SPSS数据编辑窗口

一个完整的SPSS数据结构包括变量名、变量类型、宽度、小数、标签、变量值、缺失值的定义、列宽、对齐方式等。关于定义变量,市场上的SPSS教材均有介绍,本书从实用的角度进行简明扼要的介绍,特别是一些需要强调的注意事项,下面进行逐一讲解。

(一)变量名

变量名是变量参与分析的唯一标识。在采取直接录入方式录入数据前,首先就是定义变量结构,定义变量结构时首先应该给出每个变量的变量名(图2-2)。如果不事先指定变量名,SPSS系统默认以“VAR”开头的变量名,后面跟5个数字,如第一个没指定的变量名VAR00001,遇到第二个没有指定的变量名VAR00002,以此类推。变量名命名原则需要掌握:

图2-2 定义变量名

1.变量名首字符必须是字母或汉字,后面可以为任意字母或数字。

2.变量名必须是唯一的且不区分大小写。

3.变量名不能超过64个字符。

4.变量名结尾不能以圆点、句点或者下划线。

5.SPSS的保留字符(ALL、NE、LE、GE、BY、AND、NOT、WITH、EQ 等)不能作为变量名。

(二)变量类型

主要有数值型、字符型和日期型,这3种变量类型在实际工作中会经常用到,需要熟练掌握,在后续章节会具体介绍如何进行不同类型变量之间的相互转换。

1.数值型变量

根据其功能和显示方式,数值型变量又可以细分为6种类型:标准数值型、逗号数值型(每3位用逗号分隔)、圆点数值型(每3位用圆点分隔)、科学计数法数值型、美元数值型(显示时带有美元符号)和自定义货币数值型。系统默认的变量类型为标准数值型,也是最为常用的数值型。如图2-3所示。

图2-3 数值型变量对话框

2.字符型变量

字符型变量是非数值型变量,其值是由字符串构成的。字符型变量的默认显示宽度8个字符,可以修改字符串长度(图2-4)。字符串变量值不能直接参与数学运算,但是可以通过SPSS软件的函数转化为数值型变量进行数学运算。这个功能会在后续有关数据管理的章节中进行具体讲解。

图2-4 字符型变量对话框

3.日期型变量

日期型变量用来表示日期和时间的变量类型。SPSS提供了29种日期型变量的显示格式。SPSS软件在打开的日期型变量对话框中显示所有的日期型变量格式,供大家根据需要进行选择(图2-5)。如mm/dd/yyyy,mm表示两位数显示的月份,如1月份为01,dd表示两位数的天数,如第8天为08,yyyy表示四位数的年份,如1998年。日期型变量在SPSS中的存储是以该日期与1582年10月14日零点相差的秒数,如果将日期型变量转换为数值型,显示的就是差值的秒数。在实际工作中会经常用到两个日期之差来计算相隔多少小时、多少天、多少年等。如相差的秒数除以60×60×24等于天数。

图2-5 日期型变量对话框

(三)变量标签

变量标签是对变量名和变量值的进一步解释,这个可以有也可以没有,变量标签分为变量名标签和变量值标签。

1.变量名标签

是对变量名的进一步解释。因为在进行数据分析前,为了数据分析的方便,可能用一些字母加编号或英文单词等作为变量名,那么这个变量名的具体含义是什么,代表什么,就可以在变量名标签中进行解释。变量名标签的定义方法直接在该变量名的标签栏双击进入编辑状况,输入该变量名标签即可。如图2-6所示。

图2-6 添加变量名标签

2.变量值标签

变量值标签是数值型变量值的含义的进一步解释。对于数据库文件中的数值型变量用非数值型变量表示非常有用,这在日常数据分析工作中会经常用到,它使数据分析结果的可读性得到进一步加强。如学历在数据库中用数值型变量表示,取值1~6,1表示文盲,2表示小学,3表示初中,4表示高中及中专,5表示大专及本科,6表示研究生。定义变量值标签时,在数据编辑窗口的变量视图中,点击该变量的“值”那一栏,该栏的右侧会显示一个“…”的隐藏框,点击这个隐藏框,出现变量值设置对话框,如图2-7所示。在变量值设置对话框中,在“值”后面空白框中输入变量值,在“标签”后面空白框中输入该变量值表示的含义,完成后点击“添加”按钮,就在其右侧的空白框中显示变量值及其表示的含义,以此类推。将所有变量值及其标签输入完后,点击“确定”按钮,完成对该变量的标签设定。如果需要修改或删除某个变量标签,就在右侧空白框中选择该变量标签,然后点击修改,在上方的“标签”后面空白框中修改,修改完毕点击“修改”;如果删除某个变量标签,直接在右侧的空白框中选中该变量标签,然后点击“删除”即可。

图2-7 变量值标签的设置

(四)缺失值

变量值的缺失是在数据收集和录入过程中由于种种原因(如拒答、数值异常、跳转等)产生。但是在数据分析时又无法回避。此时,需要在数据整理阶段对变量值缺失进行定义。

在SPSS中缺失值有用户自定义缺失值和系统缺失值两大类。一般对数值型变量的缺失,系统缺失值默认圆点表示。字符串型变量缺失,系统缺失值默认为空字符串。在实际工作中,可能会对缺失值预先制定一个缺失值代码来表示,以便与正常值进行区分和识别。在数据编辑窗口的变量视图中,点击该变量的“缺失”那一栏,该栏的右侧会显示一个“…”的隐藏框,点击这个隐藏框,出现缺失值设置对话框,有3种选择,第一种就是没有缺失值;第二种离散缺失值,最多可以设置3个值,比如可以对某个变量如果出现缺失值,以数字“9”表示(此处需要注意:如果该变量值有9,就不能用数字9作为缺失值的指代);第三种是指定缺失值所在范围,并可以指定一个具体的离散值,如图2-8所示。

图2-8 变量缺失值的设置

(五)度量标准

度量标准就是定义变量的测量尺度,它能更进一步准确说明变量的含义和属性,根据对数据的测量尺度,可将变量分为3大度量类型即定距型尺度(度量,scale)、定类型尺度(名义,nominal)和定序型尺度(序号,ordinal),如图2-9所示。变量的3个度量标准也可以用统计学上常用的表达方式:连续性变量、无序分类变量和有序分类变量,这种表述进行统计分析尤其多因素分析模型时(如多因素线性回归模型、Logistic回归模型、Cox比例风险模型等),对进入模型的变量的设置非常重要,需要根据不同的变量度量标准进行设置,这在后面案例分析章节进行详细讲解。实际工作中,经常有人会在设置变量进入模型时出现错误,其主要原因就是没有搞明白变量的度量标准!

图2-9 变量度量标准的设置

1.定距型尺度

指对事物类别或次序之间距离的测量尺度,其也称为连续型变量。如温度,长度,年龄等。典型特征是可以表示类别之间的差距多少,其结果可以进行运算。

2.定类型尺度

指对事物的类别或属性的一种测量尺度,其也称为无序分类变量,如性别、职业。典型特征是不能比较该事物类别或属性的大小。

3.定序型尺度

指对事物之间等级或顺序的一种测量尺度,其也称为有序分类变量。如满意度(非常满意、满意、一般、不满意)和疾病预后(痊愈、好转、无效)等。典型特征是可以排序和比较优劣。

(六)角色

角色就是预先设定该变量在分析变量中所扮演的角色。分为输入、目标、两者都有、无、分区和拆分。默认状况下为输入。这个主要运用在数据挖掘模块,一般工作中很少用到,所以不用理它。如图2-10所示。

图2-10 变量角色的设置