4.3 GLM、GAM 和其他模型
线性回归模型的预测被建模为特征的加权和,这是其最大的优点也是最大的缺点。此外,线性模型还有很多其他假设。但所有这些假设在现实中经常被违背:给定特征的结果可能具有非高斯分布;特征可能交互;特征和结果之间的关系可能是非线性的。好在统计界已经为此进行了各种修改。
本节不是扩展线性模型的指南,而是作为扩展的概述,例如广义线性模型(Generalized Linear Model,GLM)和广义加性模型(Generalized Additive Model,GAM)。阅读之后,你可以对如何扩展线性模型有一个全面的了解。如果想先了解有关线性回归模型的更多信息,建议先阅读第4.1 节。
回顾线性回归模型的公式:
y =β0+β1x1+···+βpxp+ϵ
线性回归模型假设一个实例的结果y 可以用它的p 个特征的加权和表示,其中误差项ϵ 服从高斯分布。通过将数据强制到公式中,可以获得模型解释。特征的效应是加性的,意味着没有特征交互;而且关系是线性的,意味着某个特征增加1 个单位可以直接转化为预测结果的增加或减少。线性模型允许将特征和预期结果之间的关系压缩成一个单一数字,即估计的权重。
但对于很多现实世界的预测问题,简单的加权和太过严格。本节将学习经典线性回归模型的三个问题以及如何解决它们。可能违反的假设问题还有很多,但这里将重点关注图4-8 所示的三个问题:线性模型的假设给定特征的输出结果为高斯分布,特征可加性(相当于无交互)和关系是线性的。现实通常不遵循这些假设:结果可能具有非高斯分布,特征可能会交互并且关系可能是非线性的。
所有这些问题都有解决方案:
(1)问题:给定特征的目标结果y 不服从高斯分布。
图4-8 线性模型的假设以及现实世界下的情况
示例:假设想预测在某天骑自行车的时间。给定的特征有这一天的类型、天气情况等。如果使用线性模型,可以预测负的时间,因为它假设服从高斯分布,不会在0分钟处停止。同样,如果用线性模型预测概率,可以得到负的或大于1 的值。
解决方案:GLM。
(2)问题:特征交互。
示例:一般来说,小雨对骑车的欲望会有轻微的负面影响。但是在夏季,在交通高峰期,我还是希望下雨,因为那时所有晴天时的自行车骑手都待在家里,我就可以有自己的自行车道!这是一种时间和天气之间的交互,无法由纯加性模型获得。
解决方案:手动添加交互。
(3)问题:特征和y 之间的真实关系不是线性的。
示例:在0~25°C 之间,温度对我骑车欲望的影响可能是线性的,这意味着从0~1°C 的增加导致骑车欲望的增加与从20~21°C 的增加相同。但在较高的温度下,我骑车的动机会减弱甚至降低--我不喜欢在太热的天气里骑车。
解决方案:GAM,特征转换。
下面会着重介绍这三个问题的解决方案。线性模型的很多进一步扩展在本书中被省略了,但在本节末会介绍在线性模型扩展方面遇到的一些问题以及解决方案。