可解释机器学习:黑盒模型可解释性理解指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.6.2 什么是好的解释

本节进一步浓缩了Miller 关于“好的”解释的总结,并为可解释机器学习添加了具体含义。

1.解释的对比性[8]

人类通常不会问为什么会做出某种预测,但会问为什么会做出这种预测而不是另一种预测。我们倾向于在反事实的情况下思考:“如果输入X 不同,预测会是怎样的?”对于房屋价格预测,业主可能会感兴趣,为什么预测价格比他们预期的价格要高。如果我的贷款申请被拒绝,那么我可能不想听到所有支持或反对这个结果的原因,而是对申请中需要做哪些更改才能获得贷款更感兴趣--我想知道我的申请和我能被接受的申请之间的对比。认识到对比性的解释是可解释机器学习的一个重要发现。从大多数可解释的模型中可以提取一个解释,它隐式地将实例的预测与人工数据实例或一些实例平均值进行对比。医生可能会问:“为什么这种药对我的病人不起作用?”他们可能需要一种解释,将他们的病人与药物起作用的病人以及药物不起作用的病人进行对比。对比性的解释比完整的解释更容易理解。医生对药物为什么不起作用的问题的一个完整的解释可能包括:病人已经有10 年的疾病,有11 个基因过表达,病人的身体很快将药物分解成无效的化学物质等。但一个对比的解释可能是更简单的:与有反应的患者相比,无反应的患者具有一定的基因组合,使药物的疗效降低。最好的解释是强调感兴趣的对象和参照对象之间最大的差异。

它对可解释机器学习意味着什么:人类不希望对预测有一个完整的解释,而是希望将不同之处与另一个实例(可以是人工的)的预测进行比较。创建对比性的解释依赖于应用程序,因为它需要一个参照点进行比较。这可能取决于要解释的数据点,也取决于接收解释的用户。一个房屋价格预测网站的用户可能想要得到房屋价格预测的解释,使其能与他们自己的房屋或网站上的另一间房屋或附近的一间普通房屋形成对比。自动创建对比性解释的解决方案还可能涉及在数据中寻找原型。

2.解释的选择性

人们不希望对涵盖事件的实际原因和完整原因进行解释,而是习惯于从各种可能的原因中选择一个或两个原因作为解释。例如电视新闻:“由于软件更新出现问题,造成人们对产品的抵制越来越强烈,从而导致了股价的下跌。”“Tsubasa 和他的球队因为防守薄弱而输掉了比赛,他们给了对手太多的空间来发挥他们的战术。”“对既有机构和政府的不信任感与日俱增是选民投票率降低的主要因素。”

如果一个事件可以用各种原因解释,则被称为“罗生门效应”。对于机器学习模型,如果能根据不同的特征做出一个好的预测是有利的。将使用不同的特征(即不同的解释)的多个模型结合在一起的集成方法通常表现良好,进行平均可以使预测更加可靠和准确。但这也意味着有不止一个选择性的解释--“为什么做出了某种预测”。

它对可解释机器学习意味着什么:解释要简短,即使真实情况很复杂,但只给出一两个原因。LIME 在这方面就做得很好。

3.解释的社会性

它们是解释者和解释的接收者之间对话或交互的一部分。社会背景决定了解释的内容和性质。如果我想向技术人员解释为什么数字加密货币价值如此之高,会这样说:“分散的、分布式的、基于区块链的账本,不能由一个中央实体控制,与那些想确保财富安全的人产生共鸣。”但对我的祖母,我会说:“看,祖母,加密货币有点像计算机黄金。人们喜欢并会花很多钱买黄金,年轻人喜欢并会花很多钱买计算机黄金。”

它对可解释机器学习意味着什么:注意机器学习应用程序的社会环境和目标受众。正确地使用机器学习模型的社交部分完全取决于特定应用程序。这方面可以请教人文学科的专家,如心理学家和社会学家。

4.解释的重点是异常

人们更关注异常原因来解释事件[9]。这些原因发生的可能性很小,但还是发生了。消除这些异常原因将大大改变结果,即反事实解释。人类认为这些“异常”的原因是很好的解释。Trumbelj 和Kononenko[10] 列举的一个例子是:假设有教师和学生之间的测试情况数据集。学生们参加一门课程,在成功做一个演示后,会直接通过该课程。老师可以额外选择通过问学生问题的方式来测试学生的知识,无法回答这些问题的学生将被判为不及格。学生可以有不同程度的准备,这意味着学生可以正确回答老师问题的概率也不同。要预测一个学生能否通过这门课,并解释预测:如果老师没有提出任何额外的问题,通过的概率是100%;否则,通过的概率取决于学生的准备水平和正确回答问题的概率。

情景1:老师通常会向学生提出额外的问题(例如,100 次中有95 次)。一个没有准备的学生(例如会有10% 的概率正确回答问题)不幸碰到了额外的问题,但他没有正确回答。学生为什么不及格?可能没有准备是学生的错。

情景2:老师很少问额外的问题(例如,100 次中有2 次)。对于一个没有准备的学生来说,我们预测他通过课程的可能性很高,因为老师不太可能提额外问题。当然,其中一个学生没有准备好这些问题,这给了他10% 的概率通过这些问题。他很倒霉,老师又问了一些学生不能回答的问题,结果他没能通过这门课。失败的原因是什么?我认为现在更好的解释是“因为老师测试了学生”。老师不太可能提问,所以老师表现异常。

它对于可解释机器学习意味着什么:如果一个预测的输入特征在任何意义上都是异常的(例如分类特征的一个罕见类别),并且该特征影响了预测,那么应该将其包括在解释中,即使此时其他“正常”特征对预测的影响与异常预测相同。在房屋价格预测的例子中,一个不正常的特征可能是一个相当昂贵的房子有两个阳台。即使某种归因方法发现,这两个阳台对价格差异的影响与住房面积、良好的邻里关系或近期装修一样大,但“两个阳台”的异常特征可能是解释为什么房子如此昂贵的最好解释。

5.解释是真实的

事实证明,良好的解释是真实的。但这并不是“好的”解释的最重要因素。例如,选择性似乎比真实性更重要。仅选择一个或两个可能原因的解释很少涵盖相关原因的整个列表。选择性忽略了事实的一部分。例如,只有一个或两个原因导致了股市崩溃,这是不正确的,事实是,有数百万个原因影响着数百万人的行事方式,最终导致了股市崩溃。

它对可解释机器学习意味着什么:解释应该尽可能真实地预测事件,在机器学习中有时被称为保真度。所以,如果第二个阳台增加了一套房屋的价格,那么这也应该适用于其他房屋(或至少适用于类似房屋)。对人类来说,解释的保真度不如它的选择性、对比性和社会性重要。

6.好的解释与被解释者的先验知识是一致的

人类往往忽视与他们先验知识不一致的信息,这种效应被称为确认偏差(Confirmation Bias)[11]。这种偏差不能幸免,人们往往会贬低或忽视与他们先验知识不一致的解释。这套先验知识因人而异,但也有基于群体的先验知识,如政治世界观。

它对可解释机器学习意味着什么:“好的”解释与先验知识是一致的。这很难整合到机器学习中,可能会大大损害预测性能。先前认为房屋面积对预测价格的影响是房屋面积越大,价格越高。假设一个模型还显示了房屋面积对一些房屋的预测价格呈负面影响。模型之所以了解到这一点,是因为它提高了预测性能(由于一些复杂的交互作用)。但这种行为与先验知识是非常矛盾的。你可以强制执行单调性约束(一个特征只能影响一个方向的预测),或者使用具有此性质的线性模型等。

7.好的解释是普遍性的

有些原因可以解释许多事件,这是非常普遍的,它们可以被认为是一个好的解释。请注意,这与认为异常原因能够做出好的解释的说法相反。如我所见,异常原因胜过普遍原因。根据定义,在给定的情况下,异常原因是罕见的。在没有异常事件的情况下,普遍性的解释被认为是一个好的解释。对于这类解释,一个很好的例子是“房屋之所以昂贵是因为它很大”,这是一个非常普遍的、很好的解释--“为什么房屋昂贵或便宜”。

它对可解释机器学习意味着什么:普遍性可以很容易地通过特征的支持(Support)来衡量,即解释应用到的实例数除以实例总数。