量化研究体系:以7大模块为核心
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.1.2 按对训练集的使用方法分类

我们将算法对于训练集的数据是一次性全部调用训练、还是分批次调用训练,将算法分为在线学习和非在线学习。

1.在线学习

在线学习是将训练样本逐个输入算法中,并在新的数据进来的时候,对之前学习的结果进行更新,即参数在每次迭代的时候都按照一个更新法则来变化,参数变化的情况也受到步长的影响。这样的算法在样本量非常大的时候对于有限内存的管理运用非常有效,是大数据时代的一种优秀的机器学习算法。在线学习包括梯度下降(上升)法、Adagrad、神经网络、深度学习等,图3.6为梯度下降法的示意图。

2.非在线学习

非在线学习即传统的对于训练集全部输入,然后建立模型的算法。此类算法在数据量较大的时候不利于内存的管理。很多常见的机器学习都属于非在线学习,包括KNN、SVM、决策树等。

图3.6 梯度下降法示意图