统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

10.14.3 基于得分组的平滑预测与实际值散点图

基于得分组的平滑预测与实际值散点图是由得分组的平均实际值和平均预测回应值组成的散点图。图的制作和解读与基于十分位组的平滑预测与实际值散点图是一样的。唯一的不同点是由得分组替代了十分位组,参见10.14.1节关于得分组的平滑残值散点图的讨论。

我们下面列出制作和解读这种散点图的步骤:

1)通过附加预测logit值并将其转化为预测的应答率值,给这些数据打分。

2)确定得分组,并计算实际回应和预测回应的平滑值。

3)按照得分组画出平滑实际值和预测点。

4)在图上标出45°直线。如果这个平滑散点图看上去像零(散点)图,那么可以得出结论:在得分组层面上的模型预测是相当好的。

5)使用平滑点间的关联系数有助于客观检验这个平滑散点图。这个相关系数与散布在45°线附近的点子的数量有关。相关系数越大,散布的程度越小,预测的整体质量也越高。这个相关系数在挑选更好的模型时,可以作为一个比较指标。

1.示例

我们根据表10.16制作基于得分组的平滑实际值与预测值分布图,评估这个3变量模型的预测质量。图10.13的平滑散点图表明,散布在45°线旁边的15个平滑点是好的,直线右侧的4个点不好,分别标记为1~4。

表10.16 (FD2_RCP、MOS_OPEN、MOS_DUM)模型得分组平滑点

这些点子对应了4个得分组,在图10.11的平滑残差散点图上清晰可见。标记和平滑残差散点图是一样的:

预测的整体质量是相当好的。尽管如此,如果这个模型可以容纳那些与这四个得分组类似的例外个体的话,则这个模型的表现会更好。

图10.13 3变量(FD2_RCP、MOS_OPEN、MOS_DUM)得分组的平滑预测与实际值散点图

得分组的这些个体的情况见表10.16。用原预测变量代替重述后的变量可以更容易解释这种情况。这四组的样本量(20,56,28,19)非常小,可能导致距离45°线的偏离过大。尽管如此,还是有3组小样本(60,62,50)距离45°线的偏离比较小。所以说,组样本量小可能不是出现较大偏离的原因。不管出现这种偏差的原因是什么,这四组表明这个3变量模型反映了一个小的薄弱区域——仅占样本(可推广到母数据库总体)的2.5%(=(20+56+28+19)/4926))。所以说,采用这个3变量模型可以得到较好的预测效果,即便在这个薄弱区域无法适用例外规则,但对这个模型造成的影响也不明显。

这个薄弱区域的情况如下:新开的客户(短于6个月)有2~3个,近期开的客户(6个月到1年)有3个,老客户(1年到1.5年)有3个,即

1)MOS_OPEN=1和FD2_OPEN=3

2)MOS_OPEN=1和FD2_OPEN=2

3)MOS_OPEN=2和FD2_OPEN=3

4)MOS_OPEN=3和FD2_OPEN=3

得分组/3变量模型的平滑预测与实际值散点图的描述性统计量是平滑点之间的相关系数rsm.actual,sm.predicted:scoregroup,值为0.848。