第一部分 因果推断基础
CHAPTER 1
第1章 因果关系推断的基本概念
1.1 因果关系推断
因果关系描述两个事件之间引起与被引起的关系,反映了系统内部的机制与规律[1-3]。例如,脑血管病变是导致血管性痴呆病的原因,因为预防和控制脑血管病变可以有效防止血管性痴呆病的发生。不同于因果关系,相关关系只局限于事件之间存在的统计相关性。例如,牙齿上的黄色烟渍与肺癌是一对相关关系,黄色烟渍可以作为预测肺癌的一个重要因素,但是其不能作为解释肺癌产生的原因,因为清洗牙齿上的黄色烟渍并不能治疗肺癌或降低肺癌的发病概率。
因果关系严格区分了原因变量和结果变量,在揭示事件发生机制、指导干预行为等方面具有相关关系不能替代的重要作用[4-6],因此探索事件之间的因果关系是哲学、自然科学和社会科学等众多学科的重要研究方向之一。例如,2011年朱迪亚·珀尔(Judea Pearl)因通过发展概率和因果推理演算对人工智能做出的基础性贡献荣获图灵奖。2021年麻省理工学院的乔舒亚·D.安格里斯特(Joshua D. Angrist)和斯坦福大学的吉多·W.因本斯(Guido W. Imbens)因对因果关系分析的方法论贡献而被授予诺贝尔经济学奖。
因果关系推断的核心任务主要包括因果关系学习与因果效应评估。因果关系学习是识别事件或变量之间的因果关系。例如,广告推销是否为商品销量提高的原因?教育投入与个人收入是否具有因果关系?因果效应评估是计算原因变量对结果变量的影响程度,例如计算广告推销对商品销量的影响程度以及教育投入对个人收入的影响程度。但是因果关系推断一直是一项困难的任务。首先,因果关系一直没有一个统一的定义或定量化的数学描述。目前因果关系的定义基本上遵循哲学上的描述:如果一种现象引起另一种现象的变化,那么一种现象被称为原因,另一种现象被称为结果。因此,因果关系定义的不统一与模糊性给因果关系识别带来了巨大挑战。其次,在计算给定原因变量对结果变量的因果效应时,混杂因子给因果效应计算带来的混杂偏差问题,一直是因果推断领域的核心研究问题之一[1-5]。