上QQ阅读APP看书,第一时间看更新
2.3.5 模型建立
确定了目标和变量后,就可以正式进入模型搭建的环节了。由于信贷场景下客户只有正常和逾期两种可能性,是一个典型的二分类问题,因此评分卡模型采用最经典的逻辑回归(Logistic Regression,LR),逻辑回归的计算公式如下:
其中y是因变量,x是自变量,w和b是需要求解的模型参数。我们可以画出y关于z(x)的曲线,如图2-5所示。
图2-5 逻辑回归曲线
在图2-5中,随着横轴z(x)的增加,y也在连续地增加,并且y始终落在[0,1]的区间内,因而逻辑回归确实可以很好地满足信贷场景下对于客户正常和逾期两种状态的预测。
将逻辑回归的公式稍作变换,可以得到如下公式:
这里ln y/(1-y)是关于y的对数概率(Log Odds,也被称为Logit),因此逻辑回归本质上也就是y的Logit函数关于x的线性回归。
关于如何求解模型参数w和b,这里利用极大似然估计(Maximum Likelihood Estimate,MLE),希望得到的模型预测每个样本属于其真实状态的概率越大越好,似然函数如下:
对于公式(2-13),可以取对数后利用梯度下降法(Gradient Descent Method)或者牛顿法(Newton Method)求解,由于过程较为复杂且不是本书的重点,这里不再具体展开。