1.1 因果关系的反事实分析框架
在过去的十几年中,在社会科学领域内被反复使用的一个因果推论框架是反事实(countefactual)理论(Morgan & Winship 2007;Rosenbaum & Rubin 1983;Rubin 1997)。反事实,顾名思义,是和我们能够观测到的现实情况相反的一种状态。一般而言,我们区分事实和反事实的依据在于其是否能够为我们直接观测。因此,事实可以被称为某个特定变量可观测到的某种状态,而反事实则是同一变量不能够被直接观测到的另外一种状态。按照反事实理论,一个变量A对于另外一个变量B的因果性效果就是A成立时B的事实状态与A不成立时B的反事实状态之间的差异。如果这种差异存在且在统计上十分显著,则证明变量A对变量B是有因果效果的,否则二者之间就不存在因果关系。
实际上,鲁宾(Rubin)等人提出的这种反事实框架和我们日常生活中判断因果关系的标准非常一致。我们之所以没有感觉到,只是由于我们平时对这种反事实因果推论的逻辑“日用而不知”,或者说,我们没有十分“严格”、“准确”地使用这一套分析框架。这里,我们用一个具体的例子来展示反事实框架的基本逻辑。假设一个人得了感冒,而服用感冒药以后症状得到了缓解。在这个十分简单的例子中,大多数人脑海中会建立这样一种因果关系,即:原因是“吃药”,而结果是“感冒症状得到缓解”。也就像很多人所说的那样,“多亏及时吃药,不然感冒可好不了”。此时我们恰恰采用了一种反事实的理论框架来判断是否吃药这个自变量对于感冒症状是否缓解这个因变量的因果效果。采用反事实理论的术语,我们能够看到的“事实”是一个人在吃过感冒药以后感冒症状得到了缓解。人们在将感冒症状的缓解归因于吃药的时候实际上是在假定一种反事实的状态,即:如果不吃药的话,“感冒可好不了”。这两种状态的差异(一个是感冒症状缓解,而另一个是感冒症状依旧存在甚至加重)实际上就自然归因于我们关心的处理变量的不同水平(即是否服用感冒药)。通过这种方式,我们得以确定是否吃药和感冒症状是否缓解之间的因果关系。另外一个例子,我们日常生活中会经常听到人们说,有一个大学文凭对于找到一个好工作是非常有帮助的。如果用工资水平来衡量工作的好与坏(当然,这并不是工作优劣判断的唯一标准),我们实际上是在不经意间对比那些上了大学的人的工资水平与没有上大学的人的工资水平,如果前者明显高于后者(通常情况下是这样),我们就会说“上大学是有用的”,否则就会说“读书无用”。在这个推论过程中,大学毕业生的收入水平是我们能够观测到的事实状态,而没上大学的人的收入水平可以看作反事实状态,这和“吃药—感冒治愈”这个例子有着同样的因果推论逻辑。当然,那些没有上大学的高中毕业生的收入水平能不能够作为大学毕业生收入水平的反事实状态还是需要具体讨论的。本书下面会有一个独立的章节来分析这个问题。
需要指出的是,虽然人们日常生活中总是在有意无意间使用反事实的因果推论的理论框架,这些使用却是非常随意、不规范的。之所以说不规范,一个重要的原因在于反事实和事实的区分需要针对特定的个体,而具体到某个人,我们是不可能知道反事实状态究竟是什么样子的。回到上面感冒吃药的例子,我们看到的事实是个体甲吃了感冒药以后感冒症状得到了缓解。严格意义上的反事实状态便应当是个体甲这同一个个人在没有吃感冒药的情况下会是什么样的状态。同理,在大学教育的经济回报一例中,我们观测到的事实是一批高中毕业生上了大学后收入的平均水平,但此时的反事实应当是“同样”这批高中毕业生“如果”在当时没有上大学的情况下他们的收入水平是怎么样的。因此,按照严格的反事实因果推论逻辑,无论是事实还是反事实,都需要发生在同样的研究对象身上。从这个角度来看,我们便面临一个非常严重的问题,即没有办法观测反事实的状态。在现实生活中,个体甲的确是吃了感冒药,我们怎么可能让时光倒流,让他不吃感冒药,然后观测一下他的感冒症状呢?同样,当我们得到一批大学毕业生的收入水平后,我们也不能够去“假设历史”,来看如果这同一批人当年没上大学而是高中毕业以后直接去工作,其收入会是什么水平。这种反事实的“不可观测性”也被称为“因果推论中的基本问题”(Holland 1986)。
既然“历史不可以假设”,我们能够做的只能是找到和我们关心的个体特征“基本一致”的人,看他或者她在与我们关心的个体所经历的事件的不同状态下在因变量上的取值是什么样的。例如,为了知道感冒药是不是真的有效,我们找到了和个体甲相比各种情况都十分相近的个体乙,假设个体乙感冒,但他或者她没有像个体甲那样服用感冒药。此时,我们近似地将个体乙没有吃感冒药时的感冒症状作为个体甲吃过感冒药后的感冒症状的“反事实”,由此推论吃感冒药是不是真的有用。这个思路在社会科学领域内非常普遍,例如,大量研究使用兄弟姐妹数据来进行因果分析,其基本的假设就是孪生兄弟或者孪生姐妹之间存在极强的相似性,从而能够控制大量的混淆因素(甚至基因因素)(例如Aaronson 1998)。同样,在分析大学教育经济回报的时候,我们也可以找到一批和上了大学的那批高中毕业生十分类似的另外一群高中毕业生(例如高中成绩和上大学的同学近似),这些人没有继续到大学读书,而是直接进入劳动力市场工作。通过对比他们的收入水平与那些上了大学的同学的收入水平,我们便可以近似判断大学教育的经济回报。综上,为了能够在反事实框架下进行因果关系的研究,我们需要做的是找到一些和我们研究的个体特征十分类似的人在因变量上的取值作为我们关心的个体在因变量上的取值的反事实,然后对比二者之间的差异。因此,重要的是我们要找到那些和我们关心的个案“十分类似”的“反事实个案”[4](counterfactual case)。
在进一步的讨论之前,我们需要回答另外一个基本问题,即我们为什么需要在反事实的理论框架下进行因果推断。换句话说,对于社会学经验研究而言,反事实的因果推论框架的优势体现在哪里呢?正如上面反事实理论所指出的,所谓的反事实从理论上来讲是同样的个体在接受与不接受某种处理变量影响(例如是否吃药)之间所体现出来的因变量取值差异(症状是否缓解)。既然我们所关心的是同样的个体,我们实际上就屏蔽掉了很多外来的混淆因素。例如,在上面的“吃药—感冒治愈”例子中,如果时间可以倒退,让个体甲“当时”没有吃药,结果发现他的症状一点都没有缓解,则此时“吃药时的症状缓解”与“不吃药时的症状不缓解”之间的差异“只能”归因于是否吃药,而不是其他的外在因素。同理,如果在假设的不吃药的情境下个体甲的感冒症状也得到了缓解,此时我们就会得出结论:就个体甲而言,吃不吃药对于感冒症状的缓解是没有因果效果的。因为无论是否吃药,个体甲的感冒症状都会缓解的。所以,反事实理论的优势在于,如果我们能够找到“回溯并假定历史”的状态下的反事实(当然这是不可能的),我们就能够将某种事件的发生“完全归于”某种处理变量,而非其他混淆因素,因为除了处理变量的取值不同(是否吃感冒药)之外,就某个个体(例如个体甲)而言,他或者她与其反个案之间是完全一样的(因为是同一个人)。
当然,历史的回溯是不可能的。即使有可能,我们也往往在研究中由于伦理的要求不允许这样做(研究者不能强迫某个感冒的被研究对象一直不吃药以建构反事实状态)。因此,我们所能够做的只能是找到和我们关心的个体极为类似的其他个体作为“反事实个案”。此时,一个问题是,我们找到的这些“反事实个案”和我们关心的个体有可能不是那么相似。那么,我们所观测到的某种效果就不能够完全归因于我们所关心的处理变量,而有可能归因于其他的“混淆变量”(confounding variables)。还是以上面的例子来说明这一问题。假设我们找到的个体乙的免疫力要高于个体甲,结果个体乙在感冒以后没有吃药但是由于自身身体素质的原因很快就痊愈了。此时,我们如果还是以个体乙作为个体甲的反事实个案的话,我们就会得出结论:感冒药对于感冒症状是没有用的。因为无论吃不吃感冒药,感冒的症状都会痊愈(因为乙痊愈了)。自然,这个结论是不准确的。因为感冒痊愈这个事件的原因既可能归于感冒药的药效,也可能归于个体身体素质差异。遗憾的是,在这个例子中,这两个潜在的原因是无法彼此分离开的。正因为如此,社会科学研究需要尽可能地保证我们找到的反事实个案和我们关心的个案之间呈现极强的相似度,其目的就是为了控制这些混淆变量对因变量的潜在效果。[5]换句话说,在各种潜在的混淆变量的取值上(如上述的身体素质这一变量),我们希望能够保证个案与反事实个案是近似的。那么接下来的问题便是:我们如何保证做到这一点呢?在社会科学的研究中,具体的方法还是上文提到的两个:一个是随机实验,另一个是在传统的统计模型上面增加附加分析。
随机实验之所以可以帮助社会科学研究者建构反事实框架下的因果关系,是因为随机化的过程保证了我们关心的个案和那些与之对应的反事实个案之间在处理变量之外的混淆变量上的取值是近似的。例如,一个比较常见的简单随机实验是将一批病人随机分配到实验组(接受某种新药的治疗)和控制组(不接受任何药物治疗或者仅仅是服用一种和新药在外观上一模一样的安慰剂)。此时,实验组中的个体对于控制组中的个体而言是反事实个案,而控制组中的个体对于实验组中的个体而言也是反事实个案。[6]个案与反事实个案在实验处理变量(是否服用新药物)之外的其他特征(例如性别、年龄、以往病史等)上的差异都因为随机化的过程被“平均”了。此时,如果实验组和控制组中的个体在某种疾病的表现(例如癌症相关症状)上有所不同,这种不同也就只能归因于两个原因,一个是新药物的效果,另一个是随机误差。当然,在样本大到可以保证统计检定力的时候(关于样本量和统计检定力的问题,在本书后面的章节中会有专门论述),随机误差的可能性被大大地降低了。我们便能够在处理变量和结果变量之间建立某种因果性联系。在随机实验过程中,结果变量的变化不能够归因于可观测到的以及潜在的不可观测到的混淆变量。
与随机实验不同,在传统的统计模型上面增加附加分析的方法则是根据手头现有的数据将我们关心的个案与一些我们挑选出来的个案进行配对,使其在一些(我们数据中可观测到的)混淆变量上的取值接近。[7]例如,在分析高等教育经济回报的时候,我们的数据中通常既有大学毕业生,也有高中毕业生,二者在受教育水平上有所不同。此时我们一般认为潜在的混淆变量有可能包括性别、年龄、能力和户籍情况(现实情况中可能存在其他的混淆变量)等。那么我们就要找到那些在这些混淆变量上与大学生的取值近似的高中生,并将之与大学生群体进行匹配。此时,基于这个匹配样本的分析,收入的差异就能够基本上归因于是否上大学,而不是诸如性别、年龄、能力和户籍这样已经得到我们控制的混淆变量。和随机实验的方法相比,这种在传统的统计模型上面增加附加分析的方法是有其局限性的。最主要的局限在于,这种方法所能够考察和控制的混淆因素仅仅是数据中已有的可观测到的变量(即这里的性别、年龄、能力和户籍因素),而某些可能影响我们结论的其他混淆变量有可能在我们手头的数据中没有直接测量(问卷中没有问到)。对于这些没有直接观测到的潜在混淆变量,客观地讲我们是无能为力的。与之相比,随机实验法通过随机化的方式让我们在实验组和控制组之间达到混淆变量上的平衡,这种平衡所涉及的不仅仅是数据中已有的可观测到的混淆变量,还包括潜在的不可观测到的混淆变量。鉴于此,在进行社会科学研究设计的时候,如果研究者希望能够发掘出变量之间的因果关系的话,应当在保证足够外部效度的前提下尽可能地选择随机实验方法。
上面探讨的这两种操作反事实个案的方法实际上对应了两种不同的统计研究类型:实验性研究(experimental study)和观测性研究(observational study)(Rosenbaum 2002)。实验性研究指研究者对于被研究个案有着比较明确的控制力,且随机化过程是可以实施的。所谓随机化过程可以实施,是指研究者对于被研究对象进入实验组和控制组的过程是完全可以控制的。观测性研究与之相反,研究者往往不能够分配和控制被研究个案对于处理变量特定水平的接受或者拒绝(即无法控制被研究对象究竟是进入实验组还是控制组)。在这种情况下,随机化的过程自然是不可能实施的。在社会科学研究中,绝大多数基于调查数据(survey data)的研究属于观测性研究。在一般的调查中,研究者对于被访个体如何受到处理变量影响的过程是无法得知并加以控制的。研究者能够做的更多时候是对现有的情况进行数据收集和分析,通过附加某些统计分析或者假设来进行因果推论。正因为如此,在社会科学领域内,基于传统的统计模型并增加附加分析的方法虽然不是最理想的方法,但是却要比随机实验方法得到更为广泛的运用。鉴于此,本书的主要关注点将放在观测性研究下如何通过相关的附加统计操作来进行因果推断。不过在讨论具体的统计模型之前,有必要对随机实验下的因果推断过程有一个初步的了解。通过随机实验的例子,社会科学的研究者可以对因果推断的逻辑有一个基本的把握,从而能够更好地理解观测性研究下的因果推论模型。