3.2 挖掘数据中的因果关联
在因果推理发展的过程中,产生了结构因果模型(StructualCausalModel)和潜在结果框架(Potential Outcome Framework)[69,70]两大因果推理的框架。两类框架具有不同的特点和适用场景。本小节将对两者进行简单的介绍,并给出适合与机器学习结合的因果推理框架。
3.2.1 因果推理框架和因果效应定义
要发掘数据中变量之间的因果关联,一种直接的做法是在2.3节介绍的因果模型框架下建立描述各变量之间因果关联的因果图。这个任务称为因果发现(CausalDiscovery)[71]。
因果发现[71]
从有限的观测数据中学习因果图的过程称为“因果发现”。一般而论,假设观测数据有X 1,···,X d共d维变量,共n个样本。如图3-6所示,因果发现的任务则是以该观测数据为输入,从中挖掘出共d个节点的因果图,其中每个节点对应X 1,···,X d中的一维变量。因果发现算法的输出是表征观测数据中各维变量之间潜在因果关系的因果图。因果图是一个有向无环图。此外,根据因果发现算法及问题场景的不同,因果图的有向边可能存在带权重与无权重两种情况。
图3-6 因果发现输入观测数据,输出各维变量之间因果关系的因果图
现有主流因果发现算法大抵可以分为三类:
(1)基于约束的方法[72]。通过从观测数据中对所有子结构进行条件独立性测试,找到可以通过检测的马尔可夫等价类。为了降低时间复杂度,此类方法通过精心设计的规则确定边的方向,剪枝搜索空间,但依然需要大量的样本完成独立性测试。
(2)基于得分的搜索方法[73]。为了缓解对样本的依赖问题,此类方法把条件独立性测试适配成不同的得分指标,从有限的样本中通过搜索结构,不断提高得分。此方法的输出也是马尔可夫等价类。
(3)基于得分的Functional CausalM odel方法[74]。此类方法通过提出额外的结构性方程的假设,辅助因果图的可识别性,并通过在方程假设下对观测数据的重构,找到能最佳重构的因果图。一些可导的方法融合了机器学习技术,可以有效地提高对复杂关系建模和优化的效率。
但是因果发现的算法往往有复杂度高、难以扩展到特征数量多的场景下的问题。事实上,因果发现以发掘所有变量之间的因果关联为目标,但是在预测任务中,只需要关心各个特征与预测目标之间的因果关联。因此,基于因果推理中的潜在结果框架进行分析,大大降低了计算复杂度,对机器学习的任务更为实用。
潜在结果框架[69]
潜在结果框架包含三种要素:干预变量(Treatment)T、结果变量(Outcome)Y和混淆变量(Confounder)X(对干预变量和结果变量都有关联的变量)。三个变量组成的因果关系图如图3-7所示。
图3-7 潜在结果框架中干预变量、结果变量和混淆变量组成的因果关系图
在因果推理研究中,通常假设干预变量T属于二值类型,即T=0或1,其对应的实验对象被称为对照组(Control Group)和实验组(Treated Group)。这与许多实际场景相吻合。例如,在研究药物对病人的恢复率影响中,T=1代表病人服用药物,T=0代表病人不服用药物或服用安慰剂。Y(T=1)和Y(T=0)对应T=1和T=0干预下的结果(在例子中代表服用药物和不服用药物的恢复率),也称潜在结果(Potential Outcome),混淆变量X可以是病人的身体状况,它既会影响病人用药选择,也会影响恢复情况。
在此基础上,可以用Y(T=1)和Y(T=0)的差别定义因果效应。一种常见的因果效应定义为平均因果效应(Average Treatment Effect,ATE),代表了群体的因果效应期望值。形式化的定义如下:
若ATE的绝对值明显大于0,则T对Y有因果效应,二者之间的关联是因果关联;若ATE接近0,则T和Y之间没有因果关联。
与ATE类似的因果效应定义还有实验组平均因果效应(Average Treatment Effecton the Treated,ATT):
和对照组平均因果效应(Average Treatment Effecton the Control,ATC):
将上述潜在结果的框架应用到对图片中狗的识别的例子中,如图3-8所示。假设X代表是否是草地背景,T代表是否有狗鼻子,Y代表标签。那么无论X=0(没有草地背景)或1(有草地背景),T=1有狗鼻子的情况下,Y=1表示图片中有狗,T=0没有狗鼻子时,Y=0表示图片中没有狗。不难计算得到:
图3-8 研究T与Y之间的因果性:控制住变量X,研究T的变化是否会引起Y的变化
于是,狗鼻子因素对关于是否有狗的标签具有因果作用。基于同样的分析,假设X代表是否有狗鼻子,T代表是否是草地背景,那么在X是否有狗鼻子是确定的情况下,无论T有没有草地背景,Y都不会发生变化,只由X决定:
因此,草地背景对标签没有因果作用,两者之间的关联属于虚假关联。但是对于同一张图片,只能知道T在当前取值下的Y。而对于反事实情况下的Y(1-T),是无法得知的。因此,如何评估因果效应是一个具有挑战性的重要问题。
3.2.2 潜在结果框架下的因果效应评估
在因果推理文献中,对因果效应的估计的黄金准则是随机对照实验(Randomized Controlled Trial,RCT)[75]。而在现实中,随机对照实验往往成本过高,参与的群体受限[76],甚至可能受法律法规的约束无法实行。例如,当研究吸烟对人体健康的影响时,无法强制受试者吸烟。因此,借助观测性数据(ObservationalData)来评估因果效应是另一种可行的办法。
观测性数据
观测性数据由一组包含混淆变量X、干预变量T、结果变量Y的样本组成,{(x i,t i,y i)}i=1,2,···,n。与随机对照实验的数据不同的是,观测性数据中干预变量t i的分配是由一种机制π基于x i产生的。这种分配机制包括外部的分配策略(例如在推荐系统中,推荐算法有倾向性地为用户选择是否曝光商品),以及实验对象自发地根据自身情况进行选择[77]。
由于观测性数据中分配机制的存在,混淆变量X与干预变量T不独立,也被称为混淆偏差(Confounding Bias),所以简单地将实验组样本的结果Y与对照组样本的结果Y相减得到的关于ATE的估算结果是有偏的:
从以上内容可以知道,利用观测性数据评估因果效应需要克服反事实样本未知以及混淆偏差两个问题。为此,评估因果效应的方法往往建立在以下三个标准假设之上:
假设1:稳定的样本干预值(StableUnit Treatment Value,SUTVA)。当给定了观察到的样本特征时,样本的潜在结果不会受其他样本的干预值分配影响。
假设2:无混淆性(Uncon foundedness)。给定了观察到的样本特征,干预变量的分布与潜在结果独立,形式化地,T⊥(Y(T=0),Y(T=1))|X。
假设3:重叠性(Overlap)。当给定观察到的变量时,样本接受干预T=0和T=1的概率都大于0,形式化地,0<p(T=1|X)<1。
在这些假设之上发展出了不同的评估方法。
1.样本匹配
为了在观测性数据集上评估因果效应,样本匹配(Matching)[70]为每个样本寻找一个反事实组(实验组样本的反事实组是对照组,对照组样本的反事实组是实验组)里的样本,也被称为反事实样本,将它的结果作为原样本在另一种干预下的结果的近似,整个过程如图3-9所示,同一种颜色的小人代表其特征(混淆变量)相同。
图3-9 评估因果效应的样本匹配方法流程
理想中的反事实样本除被施加的干预不同之外,其他条件完全一致。因此在评估因果效应的任务中,挑选的反事实样本的混淆变量与原样本的混淆变量尽可能相近。形式化地,对第i个样本,它的反事实样本编号c(i)为
式中,dist(x i,x j)表示x i和x j两个混淆变量之间的距离,例如欧式距离、马氏距离等。在为每个样本得到反事实样本之后,ATE的估计结果如下:
但是当混淆变量维度比较高时,若直接在混淆变量的原始向量上匹配,则计算复杂度较高,而且很难找到距离足够小的匹配样本。
2.基于倾向性得分的方法
当混淆变量维度较高时,基于原始混淆变量的方法的计算复杂度也相应变高。基于倾向性得分的方法(Propensity score-basedmethod)[69,70]在一定程度上可以缓解这个问题。
倾向性得分
倾向性得分的含义是给定了观测到的变量X,样本被分配干预T=1的条件概率。形式化地,有:
倾向性得分有时是已知的,有时需要从数据中估计得到。在一定程度上,它用一个数值包含了混淆变量的信息,即:
可以计算每个样本的倾向性得分e i,并用e i的距离代替上述匹配过程中的混淆变量向量的距离,这个过程被称为倾向性得分匹配(Propensity Score Matching,PSM)[78]。倾向性得分匹配为每个样本计算反事实样本的方法如下:
另一种基于倾向性得分的因果评估方法称为逆倾向性得分加权(Inverse of Propensity Weighting,IPW)[69]。它使用样本重加权(Sample Reweighting)的方式,调整实验组和对照组样本的分布,使之与样本整体的分布相同,过程如图3-10所示。为每个样本施加的权重w i和对ATE的估计式为
图3-10 逆倾向性得分加权
在很多种情况下,倾向性得分是未知的,估计倾向性得分的模型假设错估是一个难以规避的问题。
3.混淆变量平衡
为了回避倾向性得分的模型假设错估问题,混淆变量平衡(Directly Confounder Balancing)方法[79-81]直接计算每个样本的权重来平衡实验组和对照组的样本分布。其出发点是变量的分布可以由它的各阶矩所决定。当变量在两个分布下的各阶矩都相等时,两个分布相等。具体地,混淆变量X的矩包含每维混淆变量、高阶项及变量之间乘积项的均值:
以此出发,混淆变量平衡通过优化样本权重,使得加权后的混淆变量矩与目标混淆变量分布的矩相同,求得每个样本的权重。通常来讲,出于计算的效率考虑,算法只平衡混淆变量的一阶矩。
Entropy Balancing[80]目标估计ATT,在加权平衡实验组和对照组样本的混淆变量一阶矩的同时,加入了权重的熵作为刻画权重分散程度的惩罚项,减小样本权重的方差,使得因果效应评估更加稳定。Entropy Balancing的权重W计算方法是
式中,X t和X c分别是实验组和对照组样本的混淆变量构成的矩阵。计算得到这个权重之后,ATT的估计式为
式中,n t=|{i:t i=1}|是实验组的样本数量。
在实际场景中,观测到的样本特征X可能会包含许多噪声变量,并且不同的混淆变量引起的混淆偏差也是不同的。因此,直接让所有观测到的变量都以相同的重要性参与变量平衡是一种不合理的做法。Differentiated Confounder Balancing(DCB)算法[79]为观测到的混淆变量计算一个变量权重β,并以此作为混淆变量的重要性在平衡时进行区分。DCB权重的计算方式如下:
式中,λ、µ、ν、δ是模型的超参数。
将以上评估因果效应的方法与机器学习相结合,能够挖掘变量之间的因果关联,依靠因果关联进行预测,从而提升模型的稳定性和可解释性。以此为基础,稳定学习(Stable Learning)[82-86]的概念和框架被提了出来。