推荐序

FOREWORD

从人工智能（AI）发展的历史来看，符号主义占主导地位的第一代AI以知识驱动为基础，为人类的理性行为提供模型。这种模型由于和人类的认知推理过程一致，因此具有天然的可解释性，能有效地进行“自我解释”。可惜，由于专家知识的匮乏与昂贵，以及知识获取困难等原因，第一代AI只得到十分有限的应用。基于深度学习的第二代AI有良好的性能表现，其应用已经覆盖了各种不同的领域，从图像识别、电商的产品推荐、城市交通系统的疏通决策，到金融风险控制，等等。但深度学习的核心算法都源于“黑盒”模型，其生成结果在本质上是不可解释的，因此难以得到用户的信任。“黑盒”模型给这类系统的使用带来了极大的风险与挑战，特别是风险大的应用场景，如医疗诊断、金融监管和自动驾驶等。因此，发展“可解释人工智能”极为重要且紧迫。

基于深度学习AI的不可解释性表现在诸多方面，有两种基本类型。

第一种是原理上的不可解释性。由于深度神经网络模型和算法通常十分复杂，加上“黑盒”学习的性质，AI通常无法对预测的结果给出自我解释，模型十分不透明，需要依靠第三方的解释系统或者人类专家的帮助才能看清其内部的工作原理，本书第4、5章讨论了这类问题。第5章首先讨论了一个简单和直观的方法，即对神经网络的事后解释。在一个神经网络训练结束后，通过各种方法从不同的角度对神经网络进行解释，揭示其背后的决策机理，例如利用可视化、神经网络输入单元重要性归因等。在“可解释的神经网络”中，通过以可解释性为学习目标的神经网络，从端到端的训练中直接学习可解释的表征。在第4章中，作者提出一种基于人机交互沟通的可解释人工智能范式。在基于与或图模型的人机协作解释中，介绍了与或图模型的定义与结构、基于与或图的多路径认知过程，以及如何通过人机协作的交互方式，使图模型的解读过程与人的认知结构一致，从而给出人类更容易接受的解释。以上讨论“解释”的目的均在于揭示神经网络做出预测（决策）背后的原理。其实，这种“解释”工作也可运用于其他场景，如分析神经网络在对抗样本攻击下的行为，从而揭示深度神经网络缺乏鲁棒性的原因，从中找到更好的攻击与防御方法。以打开黑盒揭示神经网络背后工作原理为目的的可解释性，对包括研究者与开发者在内的解释受众（Explainee）来讲是十分有用的，能使之做到心中有数，知道问题的所在，以及可能的改进方向。

第二种属于语义上的不可解释性。深度学习用于挖掘数据中变量之间的关联性（Correlation），而数据关联性的产生机制有以下三种类型，即因果、混淆（Confounding）和样本选择偏差。以图像识别为例，一个基于深度神经网络的图像识别系统，它把某幅图像识别为“狼”，有三种可能依据。第一，它的确出自因果关系，依据“狼”的外形特征，比如头部的特征判定其为“狼”，这种“解释”是本质性的，因此具有稳定性和鲁棒性。第二，也有可能依据“狼”身上的某个局部纹理判定其为“狼”。第三，甚至只是根据“狼”图像的背景特征，如草原而做出判断。尽管后两者的结论可能是正确的，但这种依据由混淆或样本选择偏差带来的虚假关联而做出的“解释”，一定是不稳定和缺乏鲁棒性的。遗憾的是，基于深度神经网络的算法通常找到的是“虚假”或“表面”的关联，而不是因果关系。因此这种“解释”对于解释受众中的使用者和决策者来讲是不可接受的，它不仅不能提高，反而会降低解释受众对模型的信任程度，我们称这种基于虚假关联做出的“解释”为语义上的不可解释性。由于这种不可解释性是由深度学习模型本身带来的，因此要想解决这类不可解释性，只有从改变深度学习模型做起，本书第2、3章讨论了这个问题。第2章介绍了贝叶斯方法，其中贝叶斯网络等结构化贝叶斯模型，既可用来描述不确定性，又可用直观、清晰的图形描述变量之间的直接作用关系，刻画变量之间的条件独立性，从而学到可解释的、用户友好的特征。另外，完全贝叶斯方法在所有可能的模型上拟合一个后验概率分布，通过后验分布的采样得到多个模型，使预测更加鲁棒，并可估计其不确定性，为使用者提供了算法对于预测的一种“自信程度”。第3章介绍了因果推理中传统的潜在结果框架，将其应用到二值特征和线性模型场景下的机器学习问题，随后又将其延伸到了连续特征、线性模型的场景及深度学习的场景。最后，介绍了反事实推理及若干有代表性的问题场景和方法。与深度学习不同，因果模型聚焦于因果关系，能给出更加稳定与可靠的解释。总之，本书第1～5章系统地介绍了可解释AI理论发展的现状，多角度地分析目前AI在可解释性上存在的问题，以及可能的发展方向。

本书第6～10章讨论了在生物医疗、金融、计算机视觉、自然语言处理及推荐系统应用中的可解释AI。生物医疗和金融等高风险的应用领域，对可解释性提出了更高的要求。本书详细地介绍了可解释AI的发展现状，给出一些应用实例，并介绍了目前在可解释方面所做的工作。

目前，以深度学习为主体的AI远没有达到可解释性的要求，因为我们这里定义的“可解释性”，不仅要求模型对用户是透明的，能够解释其背后的工作原理；并且要求这种“解释”必须是本质的，具有稳定性和鲁棒性的。发展可解释AI的道路十分艰难且极具挑战性。无论是第一代以知识驱动为基础的AI，还是第二代以数据驱动为基础的AI，都不能从根本上解决可解释的问题。只有把这两种范式结合起来，发展第三代AI，才能最终建立起可解释AI。目前我们离这个目标还很远。首先，我们对深度学习的模型，特别是大模型中的工作机理了解得很少，深度学习对我们来讲依然是不甚了解的“黑盒”。此外，如何将知识与深度模型结合，或者导入因果关系，目前已有的工作都只是初步的尝试，有待进一步深入。

总之，《可解释人工智能导论》一书全面介绍了可解释AI在理论上和应用上的发展现状、存在的问题及今后发展的方向，对于想了解AI和有意献身AI事业的研究者、开发者、决策者和使用者来讲，都是一部很好的参考书。

张钹

中国科学院院士，清华大学人工智能研究院院长