3.8 实例分析
下面我们将结合上述有关简单回归模型的介绍,利用CHIP88数据来讨论1988年中国城市居民的教育与收入之间的关系。目前有关教育对收入影响的估计大都是在Mincer(1958, 1974)方程的基础上发展起来的。该方程认为教育与收入的对数之间存在以下关系:
log(earn)= b0+b1edu +b2exp +b3exp2
其中,edu代表受教育年限,exp代表工作经历,以工作年限进行测量,exp2代表工作年限的平方。考虑到本章的主题,下面的讨论仅限于因变量为收入对数、自变量为受教育年限的情况。随后的章节将会对更一般的情况加以讨论。
3.8.1 变量处理策略
经过筛选,基于CHIP88数据,分析样本由15862名城市居民构成。对于教育这一变量,由于原始问卷中询问的受教育程度是分类变量,原则上可以更为保守地采用一组对应的虚拟变量。我们将在第12章中介绍如何将分类变量转换成虚拟变量。这里,我们把教育这一变量处理为受教育年限这一定距变量。具体编码方式是:少于3年=1、3年以上但未完成小学教育=4、小学教育=6、初中=9、高中=12、技校=13、大专=15、本科和研究生=17。此外,收入变量也不是问卷中原本就存在的变量,而是通过将各项收入相加所得到的总和。比如,对于工作人员,其收入主要包括标准工资、浮动工资、承包收入、奖金、津贴、补助和其他现金收入;而对于私营或个体企业主,其收入则主要指税前净收入。
考虑到收入变量(earn)的分布呈现右偏的情况(见图3-8),我们对因变量收入取自然对数,得到新变量logearn,以使其服从正态分布(见图3-9),这样更有利于获得可靠的分析结果。在模型基本假定部分我们曾提到,经过这种转换,最小二乘估计仍然有效。
图3-8 收入变量(earn)分布
图3-9 收入对数变量(logearn)的分布
3.8.2 回归结果分析
对数据进行适当处理后,经过回归分析就可以得到如下的输出结果:
输出结果由三部分组成:方差分析、模型检验拟合统计量和参数估计结果。我们看到,输出结果基于15862个观测案例。模型的F值为247.66,同时检验结果(Prob>F=0.0000)表明,个人年收入和受教育程度之间具有很强的线性关系。判定系数R2显示,受教育程度解释了个人年收入总变异中的1.54%。根据模型的参数估计结果,年收入对数和受教育年限之间的回归方程可以写作:
模型中受教育程度的回归系数为0.017,这意味着,个人受教育年限每增加1年,个人年收入对数就增加0.017。如果转换成对收入的影响的话,也就是说,个人的受教育年限每增加1年,其收入就增加1.7%。而且,对应的p值小于0.001,这表明,教育的这一影响在0.001水平上统计显著。所以,可以认为,教育对收入的影响在1988年中国城市居民这一研究总体中也存在。图3-10以图形的形式直观地展示了分别基于原始数据和所得回归方程,受教育年限与收入对数之间所呈现的关系。另外,回归方程模型的截距系数的估计值为7.26,它表示,当受教育年限为0时,1988年中国城市居民个人年平均收入的估计值为1422.26(即e7.26)元。
图3-10 回归直线与散点图
3.8.3 估计与预测
输出结果中95% Conf. Interval一栏代表回归系数的置信区间。β1的置信区间为 [0.015,0.019]。预测值的95%的置信区间如图3-11所示。
下面将基于CHIP88数据拟合得到的回归直线,估计出收入对数logearn均值的置信区间,并对单一y值的置信区间进行预测。利用Stata命令中的predict xb取得回归拟合值,用predict se1, stdp取得估计值的标准误,并用predict se2, stdf取得预测值的标准误。所得结果(仅列出前10个个体的情况)如下:
图3-11 回归直线的置信区间
注意,利用-predict-命令估计出的se1, se2, xb的缺失值个数等于变量edu的缺失值个数,而不是没有参与到回归中的缺失个案数。
如果我们要估计受教育年限为12年者的年收入均值,那么利用公式计算收入对数均值的置信区间7.46 ± 1.96 × 0.0037 = 7.46 ± 0.0073,即(7.453, 7.467)。取指数以后得到此人年收入均值的置信区间为(1724.60, 1749.79)。
如果对某个受教育年限为12年的人的年收入进行预测,那么收入对数的置信区间为7.46 ± 1.96 × 0.428 =7.46 ± 0.839,即(6.621, 8.299)。取指数以后得到对此人年收入进行预测的置信区间为(750.79, 4019.37)。由此可以看出,对单一值预测所得的置信区间要比对均值估计的置信区间大得多。