1.3.1 混杂
本节介绍相关关系与因果关系之间最常见的一种迷雾:混杂,通过图1-3所示的各年龄段下的作息规律程度与肠胃疾病患病率的相关关系的实例来说明混杂的形式。如图1-3所示,在收集成年人的作息规律程度和某种肠胃疾病的数据并绘制成散点图时可以发现,从整体来看,作息规律程度与患病率呈正相关的相关关系,即作息越规律,患病概率越高,这显然与常识相悖。但是,如果区分年龄段分析,可以发现各年龄段下该肠胃疾病的患病率均与作息规律程度呈负相关的相关关系。因此,从各年龄段分析,规律的作息可以降低该肠胃疾病的患病率;从整体分析,反而得到规律的作息可以提高该肠胃疾病的患病率这种与常识相悖的结论。
图1-3 各年龄段下的作息规律程度与肠胃疾病患病率的相关关系
图1-3中呈现的现象称为辛普森悖论,该图展现了在某些情况下单纯衡量相关关系产生的悖论。这种悖论产生的原因是从相关关系跨向因果关系的主要挑战之一:混杂的存在。我们将同时影响策略选择和结果的变量称为混杂[12]。对于图1-3,年龄即该问题下的混杂。如图1-4所示,年龄作为混杂,同时影响作息规律程度和患病率。随着年龄的增长,人们越来越重视作息规律的健康生活,体现在图1-3中递增的年龄段下的作息规律程度也是递增的,但是,该肠胃疾病的患病率也在随年龄的增长而提高,导致得到了作息规律程度越高,患病率越高的错误的相关结论。真正的因果关系是规律的作息有助于降低该肠胃疾病的患病率,同时,该肠胃疾病是一种在老年人中常见的疾病。
图1-4 年龄作为混杂导致患病率悖论
通过上述的实例可以发现,当区分年龄段来看作息规律程度与患病率之间的相关关系时,该相关关系与因果关系是一致的;当直接对整体数据来计算其中的相关关系时,相关关系与因果关系是相悖的。因此,当使用相关关系来刻画因果关系时,应注意确定一切可能的混杂,并消除其带来的虚假的因果关系。