2.3.4 变量筛选_智能风控与反欺诈：体系、算法与实践-QQ阅读中文武侠网

上QQ阅读APP看书，第一时间看更新

2.3.4　变量筛选

传统的评分卡模型通常只能容纳10～15个变量，这是因为过多的变量会在线性模型中相互影响，降低每个变量权重的置信度，并且加重后期模型维护的负担。因此，需要一个变量筛选的环节，找出一个客户的若干个最具有代表性的特征。变量筛选通常从稳定性、信息值、相关性、解释性四个方面考虑。

（1）稳定性

稳定性是评分卡入模变量需要考虑的首要条件，因为只有稳定的模型才能给业务人员的风险决策提供可靠的量化指标，稳定性通常利用群体稳定度指标（Population Stability Index，PSI）来评估。PSI描述的是不同条件下样本分布的差异，计算公式如下：

其中n为区间数，B_i为基准组样本在第i区间内占比，C_i为对照组样本在第i区间内占比。一般而言，小于0.1说明变量稳定性高，0.1～0.25说明变量稳定性一般，0.25以上说明变量稳定性低。

以捷信客户“外部评分”指标为例，计算6个月前后贷款申请客群该指标的PSI，其中6个月前客群作为基准组等频划分为10个区间，6个月后客群作为对照组，将最后一列求和得到PSI<0.1，说明该指标较为稳定，如表2-7所示。

表2-7　捷信客户“外部评分”指标PSI

（2）信息值

信息值（Information Value，IV）是评分卡模型中衡量变量重要性的指标。通常来说，小于0.02说明变量无预测能力，0.02～0.1说明变量具有弱预测能力，0.1～0.3说明变量具有中预测能力，0.3以上说明变量具有强预测能力。IV的计算基于证据权重（Weight of Evidence，WOE），WOE衡量了一个变量各个分箱区间内逾期样本的分布情况，绝对值越大说明该区间内逾期样本和正常样本的区隔程度越高。第i个区间WOE的计算公式如下：

其中B_i是该区间内的逾期样本数，B_T是总的逾期样本数，G_i是该区间内的正常样本数，G_T是总的正常样本数。

对于变量的IV，其实是该变量各个区间WOE的加权和，计算公式如下：

其中n是该变量的分箱区间总数。

我们仍然以捷信客户“外部评分”指标为例，计算其关于逾期标签的WOE和IV，其中缺失值单独作为一个区间，其余等频划分为10个区间，各个区间的好坏样本数及WOE值如表2-8所示。

表2-8　捷信客户“外部评分”指标WOE

将表2-8中各个区间WOE值代入公式（2-8），计算“外部评分”的IV值为0.3064，说明该指标具有较强的预测能力。

（3）相关性

变量的相关性包括单变量之间的相关性（Correlation）和多变量之间的共线性（Multicollinearity）。相关性是线性模型中需要注意的问题，因为变量之间过高的相关性会影响对应权重预测的置信区间，进而导致权重置信度下降。这里的相关性检验利用皮尔逊相关系数（Pearson Correlation Coefficient）构造相关性矩阵，找出相互关联的变量组。计算变量X和Y之间相关系数的计算公式如下：

其中μ_X是变量X的平均值，σ_X是变量X的标准差，μ_Y是变量Y的平均值，σ_Y是变量Y的标准差。相关系数落在[-1，1]的区间内，绝对值越大说明相关性越强，绝对值为1说明两个变量中的点都落在一条直线上，绝对值为0说明两个变量之间没有线性关系。

共线性是对相关性的进一步补充，其衡量的是一个变量与一组变量之间的线性关系，这里我们会用到方差膨胀系数（Variance Inflation Factor，VIF）。VIF解释了变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比，VIF越大说明共线性越严重，通常大于10可以认为共线性较强。VIF的计算公式如下：

其中R_i2是第i个变量作为因变量与其他变量回归的确定系数。

（4）解释性

在最终进入模型训练之前，还需要检查每个入模变量的解释性。这里要求变量WOE的分布具有一定的单调性，说明逾期率在每个区间内呈现递增或者递减的趋势，方便后期给出客户信用评分的减分原因和优化意见。如果重要变量WOE不满足单调性，可以尝试合并相邻的区间重新计算WOE；如果调整区间后变量的单调性依然难以保证，则只能将该变量筛除。

在捷信客户贷款申请样本中，计算“外部评分”指标各个区间的WOE并画图，观察可得该变量具有较好的单调性，随着“外部评分”的增大，客群的逾期率逐步降低，如图2-3所示。

图2-3　捷信客户“外部评分”指标WOE分布

对于捷信客户样本中的另一个指标“贷款年费”，虽然IV值较高，但是WOE分布的单调性较差，客群的逾期率随着“贷款年费”先降低再升高，违背指标解释性的要求，所以从入模变量中剔除。该变量的WOE如图2-4所示。

图2-4　捷信客户“贷款年费”指标WOE分布