3.4 假设检验
回归分析的目的在于对总体中自变量和因变量之间的关系加以描述或解释,但是,回归直线或回归方程的拟合却是基于某一具体样本数据进行的。那么,接下来的问题就是,我们如何将基于样本数据的变量之间的关系推论到研究总体中去呢?前面已经讲过,这就涉及统计推断问题。我们先讨论假设检验。
回归分析中的假设检验包括两方面的内容:其一,模型整体检验,即检验根据样本数据建立的回归方程在总体中是否也有解释力;其二,回归系数检验,即检验该方程中自变量X对因变量Y的影响在总体中是否存在。不过,由于一元回归模型只涉及单个自变量,模型整体检验和回归系数检验是一回事。
3.4.1 模型整体检验
模型整体检验关心的是,基于样本数据所确立的自变量和因变量之间的线性关系在总体中是否真实存在,或者说回归方程在总体中是否也具有解释力。我们已经知道,回归方程的解释力是由判定系数R2来测量的,所以,模型整体检验就是通过对R2进行检验来实现的,或者说,对模型的检验可以看作是对R2的检验。不过,R2并不是一个可以直接检验的量,这就需要重新构造一个与R2相联系的统计量。
回顾上文,我们将因变量Y的总变异分解为两个部分:被解释的变异和未被解释的变异。这里,被解释的变异是回归模型中的结构项或系统性变动,反映着自变量和因变量之间的线性关系;而未被解释的变异是回归模型中的随机项,它体现了来自自变量之外的影响。利用这一关系,我们将回归平方和(SSR)和残差平方和(SSE)分别除以各自的自由度,就得到回归均方(mean square regression,简称MSR)和残差均方(mean square error,简称MSE),即:注2
注2 简单回归的情况下,只有一个自变量,故回归平方和(SSR)的自由度为1。而对于残差平方和(SSE),我们需要以回归直线为基准进行计算(即对进行估计)。同时,由于决定这条直线需要截距b0和斜率b1两个参数,故其自由度为n-2。另外,MSE是总体误差的方差的无偏估计,稍后将会讲到。
然后求两者的比值,这就形成了一个可以对模型进行整体检验的统计量:
因为该统计量服从自由度为1和n-2的F分布,因此可以直接用它做检验。
具体做法如下:首先根据公式(3-21)计算出F值,然后,在选定的显著性水平下,根据公式(3-21)中分子自由度df1=1和分母自由度df2=n-2查F分布表,找到相应的临界值Fa。若F>Fa,则表明两个变量之间的线性关系显著存在;若F<Fa,则表明两个变量之间的线性关系不显著。请注意,这里检验的仅仅是线性关系。即使F检验不显著,也不能认为两个变量之间没有关系,因为它们之间也可能存在其他非线性关系。
3.4.2 回归系数检验
回归系数检验就是单独考查一个自变量对因变量的影响是否显著。在一元线性回归方程y=β0+β1x中,如果β1=0,那么x与y没有线性关系。所以,我们需要检验这种关系是否具有统计上的显著性。
表3-1 回归系数估计的统计量和标准误
∗有关此估计标准误的推导过程,有兴趣的读者可以参阅Wooldridge(2009: 55)。
从表3-1中可以看出:第一,误差项的标准差 σε越大,估计标准误也越大。也就是说,如果误差项的变异越大,那么我们就越难准确地预测出β1。第二,当X有越多变异的时候,将减小。也就是说,变异大的X能使我们更容易发现Y和X的关系,从而预测出的β1更准确。另外,随着样本量的增加,估计的准确性也会随之增加。在大样本情况下,我们更容易得到较小的。
由于总体中误差的方差是未知的,这里需要利用前面提到的残差均方(MSE)作为其无偏估计,即:
这里,n-2为总体误差方差的自由度。因为我们需要以回归直线为基准来计算ei(即以进行估计),而决定这条直线需要估计截距和斜率两个参数,所以消耗了两个自由度。MSE的正平方根叫做误差标准差的样本估计,记作Se。在零假设成立的条件下,估计量b0和b1均服从自由度为 n -2的 t分布。
注意,当检验结果没能拒绝零假设H0: β1=0时,我们也并不能就此得出Y不受X影响的结论。首先,这种线性关系不存在仅仅是基于样本数据中的X,也就是一定的取值范围内的X。但在更宽的取值范围内,X与Y可能是存在线性关系的。其次,我们检验的仅仅是线性关系,而X与Y之间还可能存在曲线关系。这时就需要借助散点图来发掘这种可能。