6.3 实例三——协方差分析
6.3.1 协方差分析的功能与意义
协方差分析是将回归分析同方差分析结合起来,以消除混杂因素的影响,是对试验数据进行分析的一种分析方法。一般情况下,协方差分析研究比较一个或者几个因素在不同水平上的差异,但观测量同时还受另一个难以控制的协变量的影响,在分析中剔除其影响,再分析各因素对观测变量的影响。
6.3.2 相关数据来源
【例6.3】某学校实施新政策以改善部分年轻教师的生活水平。政策实施后开始对年轻教师待遇的改善情况进行调查,调查结果如表6.3所示。用实施新政策后的工资来反映生活水平的提高,要求剔除实施新政策前的工资差异,试分析教师的级别和该新政策对年轻教师工资的提高是否有显著的影响。
表6.3 年轻教师工资表(单位:千元)
6.3.3 Stata分析过程
在用Stata进行分析之前,我们要把数据录入到Stata中。本例中有5个变量,分别为年龄、原工资、现工资、教师级别和政策实施。我们把年龄这一变量设定为age,把原工资这一变量设定为beforesalary,把现工资这一变量设定为nowsalary,把教师级别这一变量设定为identity,把政策实施这一变量设定为policy,并且用“1”表示“实施政策”,而用“0”表示“没有实施政策”,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作我们在第1章中已有详细讲述。录入完成后数据如图6.9所示。
图6.9 案例6.3数据
先做一下数据保存,然后开始展开分析,步骤如下:
进入Stata 14.0,打开相关数据文件,弹出主界面。
在主界面的“Command”文本框中输入如下命令(旨在分析教师的级别和新政策对年轻教师工资的提高是否有显著的影响):
anova nowsalary identity policy c.beforesalary
说明
c.beforesalary的意义是说明beforesalary是一个连续变量,在一些Stata旧版本中,本例的命令应该是:anova nowsalary identity policy,continuous(beforesalary)。
设置完毕后,按键盘上的回车键,等待输出结果。
6.3.4 结果分析
在Stata 14.0主界面的结果窗口我们可以看到如图6.10所示的分析结果。
图6.10 分析结果图
通过观察分析结果,我们可以看出共有30个有效样本参与了方差分析。
●可决系数(R-squared)以及修正的可决系数(Adj R-squared)都超过了80%,这说明模型的拟合程度很高,也就是说模型的解释能力很强。
●Prob > F Model=0.0000,说明模型的整体是很显著的。
●Prob > F identity =0.2402,说明变量identity的主效应是非常不显著的。
●Prob > F policy =0.9321,说明变量policy的主效应也是非常不显著的。
●Prob > F beforesalary =0.0000,说明变量beforesalary的主效应是非常显著的。
也就是说,教师的级别和新政策是否实施对年轻教师工资的提高都没有显著的影响,而实施新政策前的工资差异是对年轻教师的现有工资有显著影响的。
在此基础上,我们可以对模型进行改进,即引入变量的交互项进行深入分析,我们在主界面的“Command”文本框中分别输入下列命令并按键盘上的回车键:
anova nowsalary identity policy c.beforesalary c.beforesalary# identity c.beforesalary# policy identity# policy
可以得到如图6.11所示的结果。
图6.11 分析结果图
在本分析结果中,我们可以看到c.beforesalary# policy identity# policy这两个交互项是不起作用的,所以我们要把它们去掉,在主界面的“Command”文本框中分别输入下列命令并按键盘上的回车键:
anova nowsalary identity policy c.beforesalary c.beforesalary# identity
可以得到如图6.12所示的结果。
图6.12 分析结果图
通过观察本分析结果,我们可以看出:
●可决系数(R-squared)以及修正的可决系数(Adj R-squared)得到进一步提高,超过了90%,说明模型的拟合程度得到了进一步提高,也就是说模型的解释能力变强了。
●Prob > F Model=0.0000,说明模型的整体是很显著的。
●Prob > F identity =0.0000,说明变量identity的主效应是非常显著的。
●Prob > F policy =0.0433,说明变量policy的主效应也是显著的。
●Prob > F beforesalary =0.0000,说明变量beforesalary的主效应是非常显著的。
●Prob > F c.beforesalary# identity =0.0000,说明变量beforesalary与identity的交互效应是非常显著的。
也就是说,教师的级别、新政策是否实施、实施新政策前的工资差异都对年轻教师的现有工资有显著影响,教师的级别与实施新政策前的工资差异的交互效应也对年轻教师的现有工资有显著影响。
此外,我们可以针对这一结果进行回归分析,在主界面的“Command”文本框中输入下列命令并按键盘上的回车键:
regress
可以得到如图6.13所示的结果。
图6.13 分析结果图
在这个结果中,我们可以发现前面的实例相当于把nowsalary这一变量作为因变量,把identity、policy、beforesalary、beforesalary与identity的交互项这4个变量作为自变量进行了一次回归分析。系统针对每个分类自变量(包括identity、policy以及beforesalary与identity的交互项)创建了相应的虚拟变量,这里要把单个虚拟变量的回归系数理解为它对因变量的预测值或者条件平均数的效应。例如,1.policy表示那些具有同样教师级别以及同样改革前工资的年轻教师中,接受新政策改革的现有工资要比没有接受新政策改革的低42.30769个百分点。此外,我们还得到了每个系数的置信区间和单项T检验的结果,相比于单纯的方差分析,我们从这一结果中得到的信息要丰富得多。
6.3.5 案例延伸
上述的Stata命令比较简洁,分析过程及结果已达到解决实际问题的目的。但是Stata 14.0的强大之处在于,它同样提供了更加复杂的命令格式以满足用户更加个性化的需求。
例如,我们只针对age变量大于26的观测样本进行协方差分析,那么操作命令即为:
anova nowsalary identity policy c.beforesalary if age>26
在命令窗口输入命令并按回车键进行确认,结果如图6.14所示。
图6.14 分析结果图
通过观察分析结果,我们可以看出共有25个有效样本参与了方差分析。
●可决系数(R-squared)以及修正的可决系数(Adj R-squared)都超过了80%,说明模型的拟合程度很高,也就是说模型的解释能力很强。
●Prob > F Model=0.0000,说明模型的整体是很显著的。
●Prob > F identity =0.0676,说明变量identity的主效应是比较不显著的。
●Prob > F policy =0.2289,说明变量policy的主效应也是非常不显著的。
●Prob > F beforesalary =0.0000,说明变量beforesalary的主效应是非常显著的。