2.1 倾向值匹配:历史、发展及其对调查研究的意义
倾向值(propensity score)作为分析因果关系的概念工具最早出现在1983年罗森鲍姆(Rosenbaum)和鲁宾(Rubin)合写的一篇名为《倾向值对于观测性研究中因果效果的中心作用》(The Central Role of Propensity Score in Observational Studies for Causal Effects)的论文中(Rosenbaum & Rubin 1983)。其中,倾向值是指被研究的个体在控制可观测到的混淆变量的情况下受到某种自变量影响的条件概率。在一般的实证研究中,由于存在很多其他潜在的混淆变量来干扰自变量和因变量之间的关系,研究者通常很难发现二者之间的“净效果”(net effects)。例如,大学教育的收入回报可能受到年龄、性别以及地区差异这些混淆变量的影响。这些混淆变量对因果效果的影响通常被称为选择性误差(selection bias),而通过倾向值匹配的方式来控制和消除选择性误差则是罗森鲍姆和鲁宾论文的题中之义。罗森鲍姆和鲁宾用数理方法证明:通过将这些混淆变量纳入逻辑斯蒂回归模型或者Probit模型来产生预测个体受到处理变量影响的概率(倾向值),研究者就可以通过控制倾向值来遏制选择性误差对于因果关系的影响从而保证了因果结论的可靠性。在各种控制倾向值的方法中,匹配(matching)是比较简便易行的。其基本逻辑是将受到自变量影响的个体与那些没有受到影响的个体按照倾向值得分进行配对,即保证匹配起来的个体的倾向值得分相等或者近似。再次回到大学教育的例子,倾向值匹配过程就是将没有受过大学教育的人和受过大学教育的人配对并保证他们的倾向值(即上大学的概率)相同或者近似。这样做可以保证上过大学和没上过大学的两组个体在接受某种处理变量(是否上大学)影响方面存在近似的概率,即倾向值得分。因为已有的可观测到的混淆变量已经被用于预测倾向值得分,因此这些混淆变量的影响在基于倾向值的配对过程中被间接控制起来。故而,上过大学的和没有上过大学的两组个体在收入水平上的差异就只能归因于大学教育的有无,而不是其他混淆变量。至此,研究者便在某种程度上遏制了选择性误差。
罗森鲍姆和鲁宾的思想和计量经济学家海克曼(James Heckman)的想法不谋而合。从样本选择(sample selection)的角度出发,海克曼认为社会科学家在研究某个处理变量的效果时会不自觉地选择一些样本而忽视另外一些样本。例如,针对某个特定的研究项目,不同的个体有不同的参与意愿(例如女性或者老年人更容易参加到某些项目中去),或者研究者对于参加研究项目的个体选择有特定的倾向(例如有的研究者比较偏好选择大城市的人口,有的研究者选取的个案男性居多,等等)。这些选择性效果(selection effect)使得研究者最后能够接触到的样本必然是有一定“偏向的”(biased),或者说是片面的。分析一个带有选择性的样本,我们得出的结论也会由于选择性效果的“污染”而出现偏差(Heckman 1979;Heckman & Smith 1995)。面对这种情况,海克曼认为在进行量化评估(evaluation)研究时需要做两步工作。第一步是建立模型来考察个体接受处理变量影响的可能性,第二步则是在控制这种参与可能性的前提下来考察我们所关心的处理变量对于因变量的效果。因此,海克曼的方法也被称为“两步估计法”(two-step estimator)(Heckman 1978,1979)。
我们今天所探讨的倾向值匹配可以说是罗森鲍姆和鲁宾的统计学传统与海克曼的计量经济学传统的结合。罗森鲍姆和鲁宾通过逻辑斯蒂回归方法将混淆变量回归成为一个倾向值,这恰恰是海克曼两步估计法中的第一步,即通过模型估算个体在某个研究中接受处理变量特定水平影响的概率,二者在这一步是殊途同归的。然而,二者的一个不同点在于他们对待第一步分析的结果(或曰倾向值)有一定差异。在得到具体的倾向值得分之后,罗森鲍姆和鲁宾提出了多种控制倾向值的方法:除了匹配之外,也可以将倾向值分层(stratification)或者细分(sub-classification),然后在每个层次或者类别内探索因果关系。在海克曼的计量经济学传统中,倾向值或者说第一步分析的结果主要是作为一个新的变量被纳入已有的计量经济模型中的(这一点在后面的讨论中会具体展开)。需要指出的是,二者只是在处理第一步模型结果(倾向值得分)的具体方式上不同,本质上这两个传统的基本逻辑和思路是一致的,即在考察自变量效果之前需要通过模型来估计并控制个体受到自变量影响的概率。在下面的讨论中,我们会具体比较海克曼的选择模型与倾向值匹配方法。
在社会学领域中,早在1997年,宾夕法尼亚大学社会学系的赫伯特·史密斯(Herbert Smith)就已经使用倾向值匹配的方法研究了医院改革对于患者死亡率的影响(Smith 1997)。然而,史密斯这篇文章的主要目的是展示倾向值匹配方法,因此是作为方法论的论文发表在《社会学方法论》(Sociological Methodology)期刊上的。两年以后,哈佛大学的克里斯托佛·温希普(Christopher Winship)和斯蒂芬·摩尔根(Stephen Morgan)在《美国社会学年鉴》(Annual Review of Sociology)上系统梳理了如何通过统计方法进行因果推论,其中也谈到了倾向值匹配(Winship & Morgan 1999)。总体上说,在20世纪末,社会学领域内对于倾向值匹配的主要关注点还是在于熟悉倾向值匹配的基本逻辑,将其作为一种普遍适用的统计方法去研究实质问题则到21世纪才渐渐兴起。2003年,当时还在哈佛大学读书的大卫·哈尔丁(David Harding)在《美国社会学杂志》上发表了一篇论文,研究了社区贫困程度对于社区少年辍学以及早孕事件的影响。其中,倾向值匹配开始像多元回归那样作为一种统计技术来验证和发展已有理论(Harding 2003)。也正是在这一阶段,倾向值匹配的软件模块开始被开发出来并嵌入一般的统计软件中。例如,萨斯喀·贝克尔(Sascha Becker)和安德里亚·伊齐诺(Andrea Ichino)在2002年发布了可以嵌入斯塔特(Stata)用于倾向值匹配的模块pscore (Becker & Ichino 2002)。埃德温·鲁汶(Edwin Leuven)以及芭芭拉·夏内西(Barbara Sianesi)也在一年以后发布了他们所编写的用于倾向值匹配的模块psmatch2(Leuven & Sianesi 2003)。这些统计模块的开发使得倾向值匹配开始在社会学领域内得到广泛的应用。根据哈佛大学社会学系安卫华的梳理,截至2009年,在《美国社会学评论》和《美国社会学杂志》上发表的论文中,利用倾向值匹配技术的超过了200篇,内容涉及教育社会学、互联网使用、失业问题、健康问题等多个主题(An 2010)。可以说,在当今的社会学研究中,倾向值匹配已经逐渐发展成为一个普适的统计研究方法,得到越来越多的重视。
倾向值匹配在社会学领域内的兴起并非偶然,这和社会学对于大规模调查资料的日渐依赖是分不开的。正如本书第1章所言,和随机实验设计不同,基于调查资料的研究被称为“观测性研究”(observational study)(Rosenbaum 2002)。在随机实验中,选择性误差可以通过随机化(randomization)的方法来克服,但是在观测性研究中,类似的随机化是不可能完成的。因此,社会学家们基于调查资料去探究任何两个变量关系的时候都不可避免地会遇到其他混淆变量的影响。例如,珍妮·布兰德(Jennie Brand)和谢宇在2010年《美国社会学评论》的一篇论文中列举了在研究大学教育和收入关系时所存在的选择性误差(Brand & Xie 2010)。一方面,很多人之所以能够上好大学是因为他们的个人能力较其他人高,而这些人在未来的工作中也很有可能表现得更好从而收入更高。如果我们的研究样本大部分都是高智商群体,那么就会“显得”大学教育带来高收入。但实际上,大学教育对收入的影响是被个人能力这个变量给“膨胀起来”(inflated)了。另一方面,很多人上大学概率低是由于他们家庭贫困,难以负担教育开销。对于这些人,只要他们完成了大学教育,即使毕业后的收入只是达到平均水平,也比之前有一个很大的飞跃。这时,如果我们的样本偏重于家境贫寒的人,我们就会发现大学教育再一次“显得”对收入提升有很大的促进作用,而此时的混淆变量就是家庭经济背景。对于这种选择性误差,我们当然也可以通过海克曼选择模型(selection model)来进行处理。不过相比较而言,倾向值匹配为我们提供了一种更为直观、简便的处理混淆变量以及选择性误差的方法。
例如,在关注大学教育回报的研究中,我们通常将是否上大学作为一个二分虚拟变量(dummy variable)来放入回归模型,即自变量选取了大学教育(1=上过大学;0=没有上过大学)这个变量。但是我们知道,大学教育这个虚拟变量和随机误差之间如果存在相关性的话,一般的最小二乘估计就不再准确了(Guo et al. 2006;Sobel 1996)。假定我们建立的回归模型如下:
Y=β1+β2×D+X1+X2+ε(虚拟变量模型)
其中,β1是截距,D是虚拟变量(1=上过大学;0=没有上过大学),β2是D的系数,X1和X2是其他已经考察到的控制变量,ε是随机误差。我们知道一些其他的混淆变量(X3或者X4)也会影响个体是否受到D的影响,即D的取值。而这些变量在上面的模型中是被纳入随机误差项ε里的。这就使得ε和D产生了相关性从而违反了最小二乘估计中变量独立于随机误差项这一条件。一个比较常见的混淆变量就是个人能力或者智力水平。一般而言,衡量个体智力水平的变量是不会在大规模的调查数据中涉及的。很明显,一个智力水平高的人将来的收入会高,而他或者她上大学的概率也比其他人高。此时大学教育和收入之间的关系或许仅仅反映了智力水平的选择性效果,而不是二者之间的某种真正的因果联系。如果是这种情况,自变量D就和随机误差项ε产生了联系,这也让虚拟变量D的系数β2的估计值不准确了。
此时,如果我们事先通过混淆变量X3和X4预测了倾向值得分,则倾向值匹配的分析方法就克服了上述问题。由于X3和X4作为混淆变量已经纳入倾向值的计算中,因此,只要上面的虚拟变量模型所依据的研究个体的倾向值近似(即已经匹配好的个体),我们就能保证X3和X4被控制了,从而使得β2可以被精确估计。正是在这个意义上,倾向值匹配是应对潜在混淆变量及其选择性误差的一个可行的统计方法。