3.4 反事实推理
前文提到发掘数据中的因果关系,能够帮助机器学习模型基于不随环境而改变的稳定关联关系进行预测,实现预测的稳定性和可解释性。除此之外,在现实当中,普遍存在人们需要做出干预决策的场景,而这需要人们事先了解不同的干预对结果产生的因果作用。因果推理就是一种能够帮助人们对因果作用进行预测的技术。本小节将简单介绍在潜在结果框架下预测不同干预对结果带来的影响的反事实推理。
3.4.1 二值类型干预的反事实推理
在很多种决策场景下,干预可以抽象为一个二值变值。例如,病人服用药物(T=1)或不服用药物(T=0)。在这种情况下,人们会想要知道一个服用了药物(没有服用药物)的病人如果当时不服用药物(服用了药物),恢复情况会如何,从而得到药物对病人的健康状况的影响,以及帮助类似的病人做更好的治疗安排。
由于随机对照实验数据往往很难获取,所以如何使用大量观测性数据学习模型进行反事实推理和预测成了重要的问题。由于干预分配策略的存在,观测性数据中存在一些变量X即混淆变量对结果Y有因果作用的同时,也与干预T有关联。因此,观测性数据中干预变量T与结果变量Y之间的关联有一部分来自混淆变量引入的间接关联而非T对Y的因果作用。根据前文的分析,为了对不同干预下(T=0和T=1)的结果进行准确的反事实预测,同样需要将混淆变量和干预变量去除关联。
反事实回归方法(Counterfactual Regression,CFR)[100]借鉴了领域自适应(Domain Adaptation)[101-103]的思想。如图3-20所示,CFR学习混淆变量X的表征Φ(X),使得混淆变量表征Φ(X)与干预变量T独立,并在混淆变量表征的基础上对结果Y进行预测。为了约束表征Φ(X)和干预变量T独立,CFR引入了实验组和对照组的Φ(X)的积分概率度量(IntegralProbability Metric,IPM)[104],作为学习表征时的惩罚项IPM G()。
图3-20 CFR学习X的表征Φ(X)并以其和T为输入对Y进行预测[105]
积分概率度量(IPM)
积分概率度量(IPM)是一类刻画分布之间距离的度量。对于两个定义在S∈R上的分布p和q,以及一个关于函数g:S→R的函数族G,IPM的定义为
当分布p和q一样时,IPM为0。当函数族G足够大时,IPM为0也能推出p和q相等。当G取不同的函数族时,IPM G代表了不同的分布距离。例如G是1-李普希兹连续函数族时,IPM G是Wasserstain距离[106]。当G包含所有范数1的再生核希尔伯特空间内的函数时,IPM G是MMD距离[107]。
CFR优化的损失函数为
式中,w i=;R为模型的复杂度。最终模型h(Φ(X),T)输出了混淆变量X的样本在干预T下的结果Y。预测个体层面的个体因果效应(IndividualTreatment Effect,ITE)为h(Φ(X),1)-h(Φ(X),0)。在IHDP数据集上的表现的部分结果如表3-2所示。是关于ITE估计的均方根误差,∊ATE是ATE的误差。
从理论公式推导可以发现,ITE的估计误差上限包括被观测性数据上的预测损失和实验组/对照组中的表征Φ(X)分布距离:
表3-2 IHDP上的实验结果
从式(3-27)的结果可以得知,要反事实预测,不仅仅需要优化观测性数据上的预测损失,同时也要消除混淆变量与T之间的关联。
3.4.2 多维类型干预下的反事实推理
虽然二值的干预变量场景比较常见,但是也无法描述所有的情况。在一些场景中,干预变量无法用一个二值的单变量描述,而是需要抽象为一个高维的向量。例如在一个推荐场景中,展示的若干商品来自一个大的候选池。此时干预变量T可以抽象为一个多维的0/1向量,其中每维对应候选池的商品,1表示该商品被选中,0表示未被选中。在这种多维干预的场景中,干预变量的取值会很多,将样本分为实验组和对照组的方法便不再适用。
在多维干预的场景中,虽然干预的维度可能很高,但是原始的高维干预向量可能是由低维的隐向量产生的[108]。例如,代表选出的商品集合可以由种类、风格等若干因素决定。因此,为了降低混淆变量和干预变量去关联的难度,变分样本权重(Variational Sample Reweighting,VSR)[108]提出使用VAE从原始的干预向量T中学习出低维的隐表征Z,并用概率密度比估计[109]的方法计算出使干预变量隐表征Z与混淆变量X去关联的权重函数W Z(X,Z)。
概率密度比估计
目标:对于定义在同一个空间X的两个分布p1和p2,计算两个分布的概率密度之比。
假设有{x i}i=1,2,···,n是从分布p1中采样得到的数据,为其设置标签l=0。=1,2,···,m是从分布p2中采样的数据,设置标签l=1。根据推导可以得到:
式中,是容易计算的常数。计算可以将两组数据混合之后训练二分类器,用训练完毕后的二分类器的输出p(l=0|X)和p(l=1|X)近似。
定义上文中p1为混淆变量与干预隐变量的联合分布,p2为混淆变量与干预隐变量独立的联合分布(干预隐变量从VAE的先验分布中采样),便可得到将原始联合分布中混淆变量与干预隐变量独立的权重。
根据VAE的编码器T→Z,为观测性数据中的样本得到其干预变量t i对应的隐变量z i~p(z|t i),将隐变量和混淆变量去关联的权重W Z(x i,z i)转化为样本权重w i。最终将对干预结果预测的反事实推理模型f的损失函数优化为观测性数据上的加权预测损失:
3.4.3 存在未观测混淆变量的反事实推理
前文介绍的反事实推理方法,都建立在了无混淆性假设之上。当存在未观测混淆变量时,无混淆性假设不再成立,反事实推理也会产生偏差。为了消除未观测的混淆变量带来的问题,往往需要借助一些额外的信息,例如工具变量(InstrumentalVariable,IV)[110]或者代理变量(Proxy Variable)[111,112]。本小节将简单介绍基于代理变量的处理未观测混淆变量的反事实推理方法。
代理变量是一类由混淆变量产生的变量,而在给定混淆变量条件下与干预变量和结果变量条件独立,属于带噪声的混淆变量观测。为了从中恢复出隐藏的混淆变量,因果变分自编码器(Causal Effect Variational AutoEncoder,CEVAE)[112]提出使用VAE学习潜在混淆变量Z、代理变量X,以及干预变量T、结果变量Y的潜在产生机制,从而可以从观测到的变量推理出未观测到的混淆变量。CEVAE的概率图模型如图3-21所示,其中变量X、T、Y是可观测到的变量,Z是未观测变量。CEVAE的模型包括从观测数据推断未观测混淆变量的部分q(Z|X,T,Y)和从混淆变量生成观测到的变量部分p(T|Z)、p(Y|Z,T)。因此,它为了拟合观测到的数据分布所最大化的目标函数:L=
[log p(t i|z)+log p(y i|z,t i)+log p(z)-log q(z|x i,t i,y i)].
图3-21 CEVAE的概率图模型
当对观测性数据以外的样本进行反事实推理时,由于这些样本没有观测到干预变量T和结果变量Y,CEVAE为此增加了两个辅助模型:q(T|X)和q(Y|X,T)。最终CEVAE的训练目标函数:
对于观测到代理变量X的样本,先用CEVAE的编码器和两个辅助模型得到潜在混淆变量的后验分布q(Z|X)=
q(Z|t,y,X)q(y|t,X)q(t|X)d t d y,从后验分布中采样出Z,作为对未观测混淆变量的补全。在补全了混淆变量之后,便可以用CEVAE解码器p(y|Z,t)得到反事实预测的结果。
可以观察到,CEVAE旨在利用隐变量模型从代理变量中恢复出隐藏的混淆变量,而没有处理前文所述的去除混淆变量和干预变量关联的问题。如何在存在未观测混淆变量的框架下将两种技术结合起来,进一步提高反事实推理的能力仍然是有待探索的难题。