7.7 一个不常见示例_统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）-QQ阅读男生中文都市网

上QQ阅读APP看书，第一时间看更新

7.7　一个不常见示例

这个不常见示例的用处是检查思考一个分类预测变量R_CD的流程，它具有64个不同值，由6个二值变量（X₁，X₂，X₃，X₄，X₅，X₆）定义，包含在一个二值RESPONSE预测模型之中。

经典方法是构建（63个）哑变量，并检验模型里包括的这些哑变量，而不考虑这些哑变量并不是显著的。这种做法是有问题的：把这个模型中的所有哑变量加入会增加噪声和模型的不可靠性，因为不显著的变量充满噪声。直观地说，一大组不可分割的哑变量在模型构建中造成了困难，因为它们很快“填充”了模型，没有为其他变量留出空间。

一个替代方法是拆解这个哑变量集合。即使哑变量不被视为一个集合，不管变量选择使用何种方法，模型中仍然存在过多哑变量[1]。对于经典方法来说，这种做法仍然会导致过多哑变量被用于模型之中，导致其他可供选择的预测变量无法被纳入模型。

还有两种方法可以用于检验纳入模型中的类别变量。一种是对类别变量进行平滑处理，我们将在第10章的一个案例中介绍这种方法。（到目前为止，我们还没有给出这种平滑类别变量的背景介绍。）另一种是PCA数据挖掘程序，这种方法有效、可靠而且易于使用。我们在下一节介绍这个程序，其中PCA的使用效果基于6个基本变量X₁，X₂，X₃，X₄，X₅，X₆。

[1] 通常，哑变量基于非常少量的个体能够反映0%到100%的应答率。