深入浅出Python机器学习
上QQ阅读APP看书,第一时间看更新

4.5 小结

在本章中,我们介绍了几种常用的线性模型,包括线性回归、岭回归和套索回归。实际上,线性模型并不止这三种,还有比较知名的逻辑斯谛回归(Logistic Regression)、线性支持向量机(Linear SVM)等,它们不仅仅可以用来进行回归分析,在分类任务中也相当常见。对于线性模型来说,最主要的参数就是正则化参数(Regularization Parameter)。在线性回归、岭回归和套索回归中,是通过alpha参数来进行调节的,而对于逻辑斯谛回归和线性支持向量机来说,则是通过调节参数C来实现的。当然在实际应用中,我们常常要先决定是使用L1正则化的模型还是L2正则化的模型。大体的原则是这样,如果你的数据集有很多特征,而这些特征中并不是每一个都对结果有重要的影响,那么就应该使用L1正则化的模型,如套索回归;但如果数据集中的特征本来就不多,而且每一个都有重要作用的话,那么就应该使用L2正则化的模型,如岭回归。

虽然线性模型是一个存在历史相当悠久的算法模型,但目前它们的应用依然非常普遍,这主要是因为线性模型的训练速度非常快,尤其是对于那些超大型数据集来讲。而且其过程非常容易被人理解——基本上学过初中数学的人都能明白线性模型的原理。但是它也有一定的局限性,当数据集的特征比较少的时候,线性模型的表现就会相对偏弱一些。

在第5章当中,我们将带大家一起学习另外一种非常流行的算法——朴素贝叶斯算法。这是一种基于概率理论的算法,它的效率比线性模型还要更高一些。请大家做好准备,和我们一起向下一站出发。