2.3.2 正则化的方法
当我们使用数据训练模型的时候,很重要的一点就是要在欠拟合和过拟合之间达到一个平衡。对于欠拟合问题,可以不断尝试各种合适的算法,优化算法中的参数调整,以及通过数据预处理等特征工程找到模型拟合效果最优化的结果。而当模型过拟合的情况发生时,可以通过添加更多的数据、模型加入提前终止条件、控制解释变量等手段降低模型的拟合能力,提高模型的泛化能力。
控制解释变量个数的方法有很多,例如变量选择(feature selection),即用filter或wrapper方法提取解释变量的最佳子集,或者进行变量构造(feature construction),即将原始变量进行某种映射或转换,如主成分方法和因子分析。变量选择的方法是比较“硬”的方法,变量要么进入模型,要么不进入模型,只有0、1两种选择。但也有“软”的方法,也就是正则化,即可以保留全部解释变量,且每一个解释变量或多或少都对模型预测有些许影响,例如岭回归(ridge regression)和套索方法(Least Absolute Shrinkage and Selection Operator,LASSO)。
岭回归和LASSO回归是线性回归算法正则化的两种常用方法。两者的区别在于:引入正则化的形式不同。
岭回归是在模型的目标函数上添加L2正则化(也称为惩罚项),故岭回归模型的目标函数可以表示成:
LASSO回归采用了L1正则的惩罚项。LASSO是在目标函数J(β)中增加参数绝对值和的正则项,如下所示:
Keras内置了regularizer_l1(l = 0.01)函数实现L1正则化;regularizer_l2(l = 0.01)函数实现L2正则化;regularizer_l1_l2(l1 = 0.01, l2 = 0.01)函数实现介于L1和L2之间的弹性网络正则化。