第二部分 理论方法
第2章 贝叶斯方法
李崇轩 朱军
贝叶斯方法用直观、清晰的方式描述了变量之间的直接作用关系,为刻画数据和模型中的不确定性提供了一种既严谨又可解释的方法。本章首先介绍贝叶斯方法的基本原理和基本问题,然后介绍了贝叶斯方法和深度学习的交叉领域,包括深度生成模型和贝叶斯神经网络两大类方法,最后讨论了因果推断和贝叶斯方法的区别与联系。本章内容总览如图2-1所示。
图2-1 本章内容总览
贝叶斯方法旨在建模多个随机变量的联合概率分布,为刻画数据和模型中的不确定性(uncertainty)提供了一种严谨、系统的方法。从机理上看,贝叶斯方法在可解释性方面具有天然的优势。贝叶斯网络(Bayesian Network)等结构化贝叶斯模型聚焦于数据中的不确定性,结合图论,用直观、清晰的方式描述了变量之间的直接作用关系,刻画了变量之间的条件独立性(Conditional Independence),可以学习到可解释的、用户友好的特征。另外,完全贝叶斯方法(fullBayesian Approach)在所有可能的模型上拟合一个后验概率分布,并通过对后验分布采样得到多个模型,得到更鲁棒的预测,并估计其不确定性,为使用者提供了算法对于预测的一种“自信程度”,让使用者明确相关算法的适用边界,起到一定的提醒和预警作用。
和贝叶斯网络关系紧密却又有显著区别的另一种“语言”是JudeaPearl提出的因果模型。这类模型不再描述不确定性和相关关系,而是聚焦于因果关系,体现了更“高等”的智能和可解释性,如图1-2所示。
本章首先介绍贝叶斯方法的基本原理,包括三个基本问题,即表示(representation)、推断(inference)和学习(learning),以及贝叶斯网络固有的可解释性和典型应用。随后,本章将介绍贝叶斯方法和深度学习的交叉领域,分为深度生成模型(Deep GenerativeModel)和贝叶斯神经网络(Bayesian NeuralNetwork)两大类方法。在充分利用神经网络对高维数据的拟合能力的基础上,它们分别在机制的可解释性和估计预测的不确定性方面继承了贝叶斯方法的优势。最后,本章讨论了因果推断和贝叶斯方法的区别与联系,并简明扼要地介绍了Judea Pearl提出的因果模型。