可解释机器学习:黑盒模型可解释性理解指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.1 线性回归

线性回归(Linear Regression)模型预测目标结果为特征输入的加权和,其学习的线性关系使解释变得容易。长期以来,统计学家、计算机科学家以及其他解决定量问题的研究人员都使用线性回归模型。

线性模型可用于建模回归目标y 对某些特征x 的依赖性。由于学到的关系是线性的,可以针对第i 个实例写成下式。

式中,实例的预测结果是其p 个特征的加权和;参数βj 表示要学习的特征权重或系数,其中第一项β0 称为截距,不与特征相乘;ϵ 表示误差,即预测结果与真实结果之间的差。

假设这些误差服从高斯分布,这意味着在正负方向上都会产生误差,并且会产生很多较小的误差和少量较大的误差。

可以使用多种方法估计最佳权重。通常使用最小二乘法找到使真实结果和预测结果之间平方差最小化的权重:

本书不会详细讨论如何找到最佳权重。如果你感兴趣,可以阅读The Elements of Statistical Learning[1] 的第3.2 节或者和线性回归模型相关的其他网上资源。

线性回归模型的最大优点是线性:它使估计过程变得简单,而最重要的是,这些线性方程在模块化水平(即权重)上具有易于理解的解释。这是线性模型以及类似的模型在医学、社会学、心理学等很多定量研究领域应用如此广泛的主要原因之一。例如,在医学领域,不仅要预测病人的临床结果,而且要量化药物的影响,同时以可解释的方式考虑性别、年龄和其他特征。

权重估计带有置信区间。置信区间是权重估计的范围,它以一定的置信度覆盖“真实”权重。例如,权重为2 的95% 置信区间可能为13。这个区间的解释是:如果用新的抽样数据重复估计100 次,在假设线性回归模型是正确的数据模型的情况下,置信区间将包括100 个案例中95 个真实权重。

模型是否为“正确”取决于数据中的关系是否满足某些假设,即线性、正态性、同方差性、独立性、固定特征和不存在多重共线性。

1.线性

线性回归模型使预测成为特征的线性组合,这既是其最大的优势,也是其最大的局限。线性导致其为可解释模型。线性效应(Linear Effect)易于量化和描述,是可加的,因此很容易分离效应。如果怀疑有特征交互或特征与目标值呈非线性关系,则可以考虑添加交互项或使用回归样条。

2.正态性

本书假设给定特征的目标结果服从正态分布。如果违反此假设,则特征权重的估计置信区间无效。

3.同方差性

假设误差项的方差在整个特征空间内是恒定的。例如,假设要根据房屋面积预测房屋的价格。估计一个线性模型,该线性模型假设不管房屋面积如何,预测响应周围的误差具有相同的方差,这种假设经常与现实相违背。在房屋示例中,对于较大的房屋,由于价格较高且存在更大的价格波动空间,围绕预测价格的误差项的方差较高可能是合理的。假设线性回归模型中的平均误差(即预测价格和真实价格之间的差异)为50,000 欧元。如果假设同方差,则对于成本为100 万欧元的房屋和成本仅为40,000 欧元的房屋,平均误差都为50,000 欧元。显然这是不合理的,因为后者甚至会得到一个负的价格。

4.独立性

假设每个实例独立于任何其他实例。如果执行重复测量,例如每个患者进行多次血液测试,则样本点(也称为数据点)不是独立的。考虑相关样本,就需要特殊的线性回归模型,如混合效应模型(Mixed Effect Model)或广义估计方程(Generalized Estimating Equation)。如果使用正常的线性回归模型,可能会从模型中得出错误的结论。

5.固定特征

输入特征被认为是“固定的”。固定意味着输入特征被视为“给定常数”,而不是统计变量,这意味着没有测量误差,是一个相当不切实际的假设。然而,如果没有这个假设,就将不得不拟合非常复杂的测量误差模型,考虑输入特征的测量误差。当然,通常我们不想这样做。

6.不存在多重共线性

通常不需要强相关的特征,因为这会扰乱对权重的估计。在两个特征强相关的情况下,由于特征效应(Feature Effect,也可以称为特征影响)是累加的,因此估计权重变得很困难,并且无法确定哪一个相关特征归因了效应。