统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

4.4 CHAID入门

在讨论基于CHAID的平滑度更高的散点图之前,我们先简单介绍CHAID(卡方自动交互式检测的缩略语)。CHAID是通用方法,尤其是对那些没有经过统计学训练的回归建模者,因为CHAID回归树模型易于建立、理解和实现。而且CHAID的基本结构是非常吸引人的:CHAID是一个无须假设条件的模型(即无须满足任何正式的理论假设),CHAID可能在处理多个预测变量的“大数据”方面发挥巨大作用。相反,传统回归模型需要有很多假设条件,容易受到危险结果的影响,而且在处理多个预测变量方面效力不高。请注意,我会交叉使用以下这些CHAID术语:CHAID、CHAID树、CHAID回归树、CHAID回归树模型,以及CHAID模型[1]

CHAID是一个递归方法,可以将一个总体(节点1)分成不相重叠的(二个)子总体(节点、分箱、分片),这些子总体由“最重要的”预测变量定义。然后,CHAID将第一层得到的结果节点进行分割,由次一层重要预测变量定义,然后继续分割第二层,第三层,……,以及第n层得到的结果节点,直到要么满足了停止规则,要么分割标准不再满足。对于分割标准[2]来说,因变量的变化范围已经被最小化地限定在两个结果节点之一。

为了澄清这个递归的分割流程,在总体第一次分割之后(实际上总会[3])产生结果节点2和3,在这些节点上会出现进一步分割。节点在两种条件下进行分割:(1)如果用户定义的停止规则(比如,生成了最小节点而且树的层级最大)没有被满足;(2)如果分割标准包含Y变量具有显著不同意义的结果节点。如果满足这些条件,则节点2分为节点4和5;节点3分为节点6和7。对于节点4~7,如果上述两个条件被满足,则继续分割,否则就停止,我们得到一个完整的CHAID数。

[1] 市场上有不少CHAID软件包。最好的软件基于原始自动交互检测算法(AID)。参见A Pithy History of CHAID and Its Offspring(http://www.geniq.net/res/Reference-Pithy-history-of-CHAID-and-Offspring.html)。

[2] 在变差之外,还有不少分割标准(比如基尼系数、熵、误分类的成本)。

[3] 无论预测变量有多少个,都不保证顶层节点可以分割。