智能风控与反欺诈:体系、算法与实践
上QQ阅读APP看书,第一时间看更新

2.3.3 变量分箱

客户的特征数据分为离散型变量和连续型变量两类。例如学历,包括“小学”“中学”“大学”“硕士生”“博士生”等,属于离散型变量。而客户的年收入,有可能从几千到几十万不等,属于连续型变量。在评分卡模型的开发中,风控人员会倾向于将所有的变量分箱做离散化处理,这样做一是可以提高模型的稳定性,二是可以更好地观察每个变量和逾期的趋势关系。通常一个连续型变量会按照样本个数平均分为10~20个区间,离散型变量不做操作或者合并一些较为接近的区间,缺失值单独作为一个区间。分箱后的变量在各个区间内的逾期样本数量占比要求具有一定的单调性,并且趋势与业务经验一致,否则去除该变量。