上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
4.1.9 缺点
线性回归模型只能表示线性关系,即输入特征的加权和。而每一个非线性或交互都必须是由人工构成的,并明确地作为输入特征提供给模型。
从预测性能角度来说,线性模型通常也不是那么好,因为可以学习的关系很有限,而且通常将复杂的现实过于简单化了。
权重的解释可能不直观,因为它取决于所有其他特征。在线性模型中,与结果y和另一个特征都高度正相关的特征可能会得到负权重,这是因为在另一个相关特征下,它与高维空间中的y 呈负相关。完全相关的特征使得甚至不可能找到线性方程的唯一解。例如,用一个模型预测房屋的价格,并且有一些特征,比如房间数量和房屋面积。房屋面积和房间数量是高度相关的:房屋面积越大,拥有的房间数量就越多。如果将这两个特征都纳入线性模型中,可能会发生这样的情况:房屋面积是更好的预测因素,并且会得到很大的正权重;房间数量最终可能会得到一个负权重,因为考虑到房屋面积相同,增加房间的数量可能会降低它的价格,或者当相关性太强时,线性方程会变得不稳定。