4.4 CHAID入门_统计挖掘与机器学习：大数据预测建模和分析技术（原书第3版）-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

4.4　CHAID入门

在讨论基于CHAID的平滑度更高的散点图之前，我们先简单介绍CHAID（卡方自动交互式检测的缩略语）。CHAID是通用方法，尤其是对那些没有经过统计学训练的回归建模者，因为CHAID回归树模型易于建立、理解和实现。而且CHAID的基本结构是非常吸引人的：CHAID是一个无须假设条件的模型（即无须满足任何正式的理论假设），CHAID可能在处理多个预测变量的“大数据”方面发挥巨大作用。相反，传统回归模型需要有很多假设条件，容易受到危险结果的影响，而且在处理多个预测变量方面效力不高。请注意，我会交叉使用以下这些CHAID术语：CHAID、CHAID树、CHAID回归树、CHAID回归树模型，以及CHAID模型[1]。

CHAID是一个递归方法，可以将一个总体（节点1）分成不相重叠的（二个）子总体（节点、分箱、分片），这些子总体由“最重要的”预测变量定义。然后，CHAID将第一层得到的结果节点进行分割，由次一层重要预测变量定义，然后继续分割第二层，第三层，……，以及第n层得到的结果节点，直到要么满足了停止规则，要么分割标准不再满足。对于分割标准[2]来说，因变量的变化范围已经被最小化地限定在两个结果节点之一。

为了澄清这个递归的分割流程，在总体第一次分割之后（实际上总会[3]）产生结果节点2和3，在这些节点上会出现进一步分割。节点在两种条件下进行分割：（1）如果用户定义的停止规则（比如，生成了最小节点而且树的层级最大）没有被满足；（2）如果分割标准包含Y变量具有显著不同意义的结果节点。如果满足这些条件，则节点2分为节点4和5；节点3分为节点6和7。对于节点4～7，如果上述两个条件被满足，则继续分割，否则就停止，我们得到一个完整的CHAID数。

[1] 市场上有不少CHAID软件包。最好的软件基于原始自动交互检测算法（AID）。参见A Pithy History of CHAID and Its Offspring（http://www.geniq.net/res/Reference-Pithy-history-of-CHAID-and-Offspring.html）。

[2] 在变差之外，还有不少分割标准（比如基尼系数、熵、误分类的成本）。

[3] 无论预测变量有多少个，都不保证顶层节点可以分割。