统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

10.17 本案例的其他数据挖掘工作

我们尝试通过加入平滑变量CH_TYPE提高3变量(MOS_OPEN、MOS_DUM、FD2_RCP)模型的预测质量。我们用MOS_OPEN、MOS_DUM、FD2_RCP、CH_FTY_1和CH_FTY_2对TXN_ADD进行LRM方法处理。结果见表10.20。FD2_RCP的Wald卡方值小于4。所以我们从模型中删除FD2_RCP,得到含有4个变量的模型。这个4变量(MOS_OPEN、MOS_DUM、CH_FTY_1和CH_FTY_2)模型中的4个变量的Wald卡方值相差不大,结果见表10.21,G/df值是64.348(=257.395/4),比3变量(MOS_OPEN、MOS_DUM、FD2_RCP)模型的G/df值(62.02)略大。G/df值没有表明4变量模型的预测能力比3变量模型更强。

表10.20 逻辑斯谛回归模型:EDA变量加上CH_TYPE变量

表10.21 逻辑斯谛回归模型:4变量EDA模型

在10.17.1节到10.17.4节,我们做个比较分析,方法类似10.15节EDA和非EDA的对比分析,以确定4变量EDA模型是否优于3变量EDA模型。因为我已经有前一个模型的描述统计量,所以我需要后一个模型的平滑散点图描述统计量。