可解释人工智能导论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3 从贝叶斯网络到可解释的因果模型

前文提到贝叶斯方法(或者更广义的概率方法)只能表示和学习变量之间的相关关系,而不能学习到变量之间的因果关系。如图1-2所示,后者恰恰是“高级智能”的表现方式。在假定因果关系存在的情况下[3],有不同的理论来表示和推断因果关系。考虑到本章的完整性和延续性,本节聚焦于Judea Pearl在因果模型(CausalModel)方面的工作[3]

首先举一个例子[4]来讨论相关关系和因果关系的区别。

实例2.2症状与病因.考虑两个伯努利变量,其中A=1表示一个人发烧,A=0表示一个人体温正常;B=1表示一个人被某种致人发烧的病毒感染,B=0表示没有被感染。那么二者之间的关系是一种因果关系,而非相关关系。从直觉上理解,一个人可以因为感染病毒而发烧,而不是因为发烧才感染病毒,这种关系是有明确方向的,即从B指向A。现在,有一位医生提出了一个使用冷敷降温的治疗策略,问该策略能否从根本上治愈发烧的病人?为了方便,引入伯努利变量CC=1表示采取冷敷策略,C=0表示不采取冷敷策略。

图2-15 贝叶斯神经网络使用不同的推断算法估计预测结果和不确定性[68]

首先,尝试用贝叶斯网络解决实例2.2中的问题。注意到概率建模只关心两个变量之间的依赖关系,贝叶斯网络的有向边无论是从B指向A还是反过来都可以表示同样的联合概率分布。在给定这个联合概率分布之后,从概率推断的角度看,双向的条件概率都是有意义的,因为这仅仅是询问二者之间的相关性。但是,概率描述的是一种静态的关系,它无法回答一个问题:可否通过冷敷降温的方式从根本上治愈发烧的病人?医学知识告诉我们,答案是否定的。但是,如果计算条件概率分布PB=0|A=0),会得到大概率可能治愈的答案,因为二者的联合分布告诉我们,体温正常和没有病毒感染是非常相关的。这个错误的根本原因是概率语言刻画的是一种静态的相关关系,其推断是基于“观察”的证据计算一些概率,并不改变联合概率分布。

相反地,因果推断(Causal Inference)关心的是有外因对变量进行干涉(intervention)的问题(记为do(·))。形式化地,实例2.2中将通过冷敷是否可以治病的问题等价于通过干涉A的取值能否改变B的取值,形式化地记为计算PB=0|do(A=0))。注意到通过干涉,两个变量的联合分布可能会发生改变。如果通过冷敷这种外因降温,无论一个人是否被感染,其体温都可能正常。也就是说,联合分布PAB)在外因介入的情况下发生了改变。除治病问题之外,很多问题都属于因果推断的范畴,例如超市改变商品价格如何影响销量等。

既然因果推断问题如此普遍,又无法用贝叶斯网络在内的概率语言描述,一种自然的想法是提出一种新的语言来描述因果关系,Judea Pearl提出的因果模型便是其中的一种。形式化地,一个因果模型是一个三元组M=<UVF>:

U是一个变量的集合。其元素表示背景条件,称为外因(exogenous)。外因的取值不由模型本身决定。

V=V1,···,V n是一个变量的有序集。其元素表示模型所能决定的变量,称为内因(endogenous)。内因由UV决定。

F=f1,···,f n是一个函数的有序集。其元素f iUV1∪···∪V i-1映射到V i。也就是说,每个f i描述了如何通过外因和前序内因的值来确定对应内因V i的值。

直观地,上述因果模型也伴随一个有向无环图,称为因果图(CausalGraph),记为GM)。GM)中的每个点都对应一个内因变量,每条有向边都表示该变量对V i的值有直接作用。类似于贝叶斯网络,通过因果图中的稀疏连接,也可以更加简洁地描述变量之间的关系。具体而言,每个f i的具体形式为

式中,πiV i在因果图中对应的父亲的编号;vπi是相应的取值;u i是外因中直接作用于V i的变量对应的取值。

和贝叶斯网络相比,因果模型考虑了模型外的变量,同时连接关系刻画的是因果关系,而非相关性(条件独立性)。实例2.2中的外因就是冷敷与否C,内因就是AB构成的集合,B的取值由自己决定,A的取值由BC的取值共同决定,通过函数a=f Abc)来描述。结合医学知识,可以知道f Abc)=m in{b,1-c},即未感染或者进行冷敷都会让体温正常。

为了描述干涉带来的影响,也就是支持do(·)操作,需要引入一个新的概念,叫作子模型(submodel)。形式化地,在一个因果模型M中,假设XV中的一个子集,xX的某种取值,对应的子模型是一个因果模型M x=<UVF x>,式中F x={f iV i/∈X}∪{X=x}。子模型的引入描述了干涉某些变量是如何影响整个因果模型的。根据子模型,可以计算其他变量的取值,也就从数学上支持了do(·)操作。如果因果图是有向无环的,则因果模型有一些良好的性质,例如,依据子模型计算引入干涉后的结果是唯一的等,具体证明和其他性质请参考文献[3]

根据子模型的定义和实例2.2中给定的因果关系,可以直接得到do(C=0)(即采用冷敷)诱导的子模型中B(即感染病毒与否)的取值仍然是自己决定的。因此,对这个模型的直观解释为:采用冷敷的策略并不能从根本上治愈病人。

上述因果模型的定义是确定性的,为了刻画因果关系中的不确定性,可以把因果模型和概率分布结合起来,得到概率因果模型。概率因果模型通过在外因上引入概率分布,结合因果模型的函数来定义内因上的概率分布,用于描述非确定的因果关系。限于篇幅,本章不再赘述,详见文献[3]。