回归分析(修订本)(社会学教材教参方法系列)
上QQ阅读APP看书,第一时间看更新

3.1 理解回归概念的三种视角

研究者在分析数据时,总是希望尽可能准确地概括数据中的关键信息。但社会科学的数据一般都很复杂,要完全理解和表达数据中的信息几乎是不可能的。所以我们常常利用诸如频数表或者分组计算均值和方差等方法来达到简化数据的目的。与大多数统计方法一样,回归也是一种简化数据的技术。回归分析的目的是利用变量间的简单函数关系,用自变量对因变量进行“预测”,使“预测值”尽可能地接近因变量的“观测值”。很显然,由于随机误差和其他原因,回归模型中的预测值不可能和观测值完全相同。因此,回归的特点就在于它把观测值分解成两部分——结构部分和随机部分,即:

观测项部分代表因变量的实际取值;结构项部分表示因变量和自变量之间的结构关系,表现为“预测值”;随机项部分表示观测项中未被结构项解释的剩余部分。一般说来,随机项又包含三部分:被忽略的结构因素(包括结构项的差错)、测量误差和随机干扰。首先,在社会科学研究中,忽略一部分结构因素是不可避免的,因为我们不可能完全掌握和测量出所有可能对因变量产生影响的因素。其次,测量误差是由数据测量、记录或报告过程中的不精确导致的。最后,随机干扰的存在反映了人类行为或社会过程不可避免地受到不确定性因素的影响。

那么,如何根据回归模型的构成形式理解回归模型的现实意义呢?在此,我们提出理解回归的三种视角:

这三种理解方式提供了定量分析的三种不同视角。第一种方式最接近于古典计量经济学的视角。在这里,研究者的目的在于确立一个模型并以此发现数据产生的机制,或者说发现“真实”的因果模型。这种方法试图找出最具有决定性的模型。但当前更多的方法论研究者认为,所谓的“真实”模型并不存在,好的模型只是相对于其他模型而言更实用、更有意义或者更接近真实。

第二种方式更适用于工程学领域。它通常用于在已知一组自变量和因变量之间的关系后,应用新的数据给出有用的预测回答。譬如,已知某种物质的强度与其在制造过程中的温度和压强相关。再假定我们通过系统性地改变温度和压强后得到由该物质所组成的一个样本。此时,建立模型的一个目标就是找到何种温度和压强能够使该物质获得最大的强度。社会科学家有时也会应用这种方法预测人类行为的发生。这一理解方法的特点是:我们只是通过经验规律来做预测,而对因果关系的机制不感兴趣或不在乎。

第三种方式反映了当今定量社会科学和统计学的主流观点。它希望在不曲解数据的情况下利用模型概括数据的基本特征。这里经常用到的一个原则被称作“奥卡姆剃刀定律”(Occam's razor)或者“简约原则”。它被用来评判针对同一现象的不同解释之间的优劣程度。在统计模型中,这种原则的具体含义是:如果许多模型对所观察事实的解释程度相当,除非有其他证据支持某一模型,否则我们将倾向于选择最简单的模型。这种方法与第一种方法的不同之处在于:它并不关注模型是否“真实”,而只关注其是否符合已被观察到的事实。

总的说来,这三种视角并不相互排斥,而是需要我们在实际运用中根据具体的情况,尤其是研究设计和研究目的,来决定选取哪种视角最合适。在社会科学研究中,我们倾向于采用第三种视角,即统计模型的主要目标在于用最简单的结构和尽可能少的参数来概括大量数据所包含的主要信息。此时,我们需要特别注意在精确性和简约性两者间加以权衡。一方面,精确的模型意味着我们可以保留尽可能多的信息并最大限度地降低因残差而导致的错误;另一方面,我们又倾向于选择更为简约的模型。但通常情况下,要想保留信息就要建立复杂的模型,从而以牺牲简约作为代价。有关精确性和简约性这两者的冲突在社会科学研究中会经常碰到,本书也将多次讨论到这个问题。下面我们开始讨论如何建立一元线性回归模型。