1.2 混杂与辛普森悖论
什么是混杂因子(Confounder)?我们先看一个例子。假设研究人员测量不同年龄段的研究对象每周锻炼量对其胆固醇水平的影响[4,6]。如果研究人员把研究对象按照年龄段分组,发现每个年龄组的人锻炼得越多,胆固醇就越低,如图1-1a所示。显然积极锻炼对降低胆固醇水平是有益的。但是如果研究人员把研究对象不按年龄段进行分组,即把所有年龄段的研究对象放到一起分析,他们得出一个相反的结论:人们锻炼的时间越长,胆固醇越高,如图1-1b所示。这个结论显然是错误的。
图1-1 锻炼量与胆固醇水平之间的关系[4,6]
这个例子表明存在一种类型的数据,从不同的角度分析该数据,研究人员可能获得不同的结论。这就是著名的辛普森悖论。从这个例子中,我们可以看出年轻人无论运动时间多少,他们胆固醇的平均水平都会比较低,而老年人无论锻炼与否,他们胆固醇的平均水平都会比较高。如果数据中没有关于年龄的信息,我们可能无法计算出运动量对胆固醇水平的真实影响。由于年龄同时影响锻炼量和胆固醇水平,因此年龄被认为是产生辛普森悖论的混杂因子。
因此,在这个实验中,为了计算锻炼量对胆固醇水平的真实影响,我们首先需要考虑年龄这个混杂因子,然后把研究对象按照年龄进行分组,从而保证每个分组内的研究对象所有方面(除了每周锻炼量)都相同或相似;其次评估每个年龄组中同龄人的每周锻炼量对胆固醇水平的影响,最后对所有分组的结果进行加权求平均,这样就不会得出锻炼量大的人其胆固醇水平反而升高的错误结论。
一般来说,当一个变量同时影响到原因变量和结果变量时,这个变量被称为混杂因子,如锻炼量-胆固醇水平例子中的年龄被认为是混杂因子[1-2,7]。如果计算原因变量对结果变量的因果效应时没有考虑混杂因子,就会产生混杂偏差(Confounding Bias),从而产生错误的因果效应。在因果推断领域,混杂因子的识别是处理混杂偏差的关键。如图1-1所示,如果我们考虑年龄这个混杂因子,那么我们就可以获得锻炼量对胆固醇水平的真实影响。但是,如何判断年龄是锻炼量-胆固醇水平例子中的混杂因子是一个比较困难的问题。混杂问题(即混杂因子识别和混杂偏差修正)一直是因果关系推断领域的核心研究问题之一[3]。为解决现实中的因果关系推断问题,研究者分别从试验性研究方法和数据驱动的研究方法两个角度提出了相应的因果关系推断模型与方法。