统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

10.10.1 计算G统计量

在数据挖掘中,评估一个变量子集合在预测回应时的重要性,要考虑的因素包括显著降低由变量子集合带来的预测误差,以及降低G统计量与自由度的比值G/df。自由度指的是子集合中的变量数目。G统计量的定义见式10.7,即两个LL数量之差,其中一个对应的是不带变量子集合的模型,另一个对应的是带变量子集合的模型。

值得注意两点:第一,用-2LL替代LL是数学上的需要;第二,这里的子集合意指总是存在一个大的变量集合,而建模者考虑的是较小的子集合,可能其中只包含一个变量。

在下面几节,我们详细讨论在三种情境下评估变量具有相似预测能力的决策规则。简言之,单位自由度的G平均值(G/df)越大,则变量在预测回应时的重要性越高。