第1章 社会科学中的因果推论:反事实框架与随机实验
我们在阅读国内外社会学领域的各种学术期刊[例如《美国社会学评论》(American Sociological Review)、《美国社会学杂志》(American Journal of Sociology)、《社会学研究》]时,会时不时地遇到诸如“因此”、“所以”、“其原因在于”这样的词语。这样的表述实际上隐含了一种“因果关系”(causal relationship)或者“因果性”(causality)。在今天的社会科学研究中,因果关系已经成为社会科学家们对某种社会现象进行“科学”解释的同义词。学者们希望通过各种途径来确定两个或者多个变量之间的关系(例如自变量对因变量的影响),并且他们并不满足于确认“这个变量和那个变量之间有关系”,而是希望能够回答“变量A对变量B的因果关系是什么”这样的问题。正因为如此,我们在阅读那些经过同行审查(peer-reviewed)的论文时,已经很难找到这样一篇论文,其中作者的最后结论仅仅是“通过研究,我们发现某两个变量是在95%的置信区间水平上显著相关”。相反,现代社会学的研究者希望能够回答的问题是:变量A和变量B之间究竟是谁在影响谁?进一步讲,这种因果关系的形成机制(mechanism)是怎样的?
那么,社会科学研究一般是通过何种方式进行因果关系探索的呢?如果说早期的社会科学理论家们是通过逻辑论证或者总结个体化的有限经验来进行因果分析[1],那么现代社会学的因果关系则更多的是和统计模型联系在一起。这种基于统计模型的因果关系推断在20世纪60年代随着路径模型分析(path mode analysis)的兴起而被引入社会学研究中,并随之得到很多学者的重视(Duncan 1966)。路径模型分析后来逐渐发展成了一系列的结构方程模型(structural equation modeling)。直至今日,很多学者依然在结构方程模型的范式体系下通过构建不同变量之间[观测变量(observed variables)或者潜变量(latent variables)]的结构关系来验证其对于因果关系的判断(例如Pearl 2009)。虽然基于路径分析模型的因果推论方法从严格的统计学意义上讲还存在诸多限制(这在第4章中会有专门论述),但是它却在社会学经验研究和规范的统计模型之间搭建起了一座桥梁。可以说,在现代社会学研究中,对于因果关系的考查绝大多数是在某种特定的统计模型中展开的。
然而,我们却不能简单地将统计模型的应用和因果关系的确立等同起来。例如,一个经验社会学研究者常常会遇到的问题是,常规意义上的统计分析(例如基于最小二乘法的多元回归)能否帮助我们建立严格意义上的因果关系。换句话说,当我们用诸如一般多元线性回归这样的“常规”方法进行数据分析并得到相关变量之间的关系时(例如估计出的回归系数),这种关系是否就代表了一种因果关系呢?对于这个问题,很多学者的答案是肯定的。我们发现,在很多社会科学研究中,大量学者将方差分析、线性回归或者广义线性回归模型下得到的系数进行某种因果性的解读。一个很经典的例子便是教育水平和收入的关系。无论是教育社会学研究还是经济学研究都倾向于认为“教育为因,收入为果”,并由此阐发相关理论(例如著名的人力资本理论和经济学中的收入决定模型)。然而,本书下面几章的讨论将会告诉我们,这些基于传统回归模型的分析依旧没有脱离对相关关系(correlation)的依赖,从而并不能够称得上是严格意义上的因果关系。回到上面的例子,当我们用个人特征(例如年龄、性别、户口以及教育水平)去预测个人收入水平,我们一般会发现教育和收入之间的系数是正的,而且这种相关系数往往在统计推断的意义上是显著的。但是,这里我们得到的系数实际上是一种条件概率(conditional probability),即在控制了年龄、性别与户口这些所谓的“控制变量”之后特定教育水平下收入的均值情况(Tu,Gunnell,& Gilthorpe 2008)。这种条件概率依旧是在分析教育和收入的“相关性”而非“因果性”。那么,是不是这就意味着传统的统计模型(线性回归以及方差分析等)就无法用来探索因果关系了呢?答案是否定的。一般而言,在两种情况下,我们认为经过常规统计模型得出的结论能够代表某种因果关系。其一是在研究设计的时候采取严格的随机实验控制,以保证被研究的个体随机分布于某种处理变量[2](treatment variable)的不同水平上。这种方法在生物医药领域内经常用于测试新药效果[例如将病人随机分配到实验组和控制组中。随后,实验组中的个体服用新药,而控制组中的个体则服用没有药效的安慰剂(placebo)]。其二是在传统的统计模型上添加更多的分析以求控制潜在的因果推论误差。无论是采取哪一种方法,我们实际上是在希望通过某种人为安排[3]与设置(manipulation)争取让我们的研究满足一定的因果推论条件。那么,这种因果推论的条件究竟是什么呢?