量化研究体系:以7大模块为核心
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.1.1 按学习方式分类

按照算法的学习方式,可以将算法分为监督学习、无监督学习、半监督学习。

1.监督学习

对于有的监督机器学习,在训练机器学习的模型时,需要输入数据的特征及对应于此特征下的标签。比如为了区别某种花的黄花和白花,在训练模型时不仅要输入叶瓣长度、茎长度等特征,还要在具体对应的特征下告诉模型什么是黄花、什么是白花。然后训练出的模型就可以对一个未知的实例进行分类。常见的分类算法有决策树、SVM、KNN、神经网络和逻辑回归,线性分类算法示意图如图3.1所示。

当数据的标签为连续型变量时,此时用的是回归算法,比如对不同股票的成交量与股票的波动数据拟合出一条直线,这条直线就是一个线性回归模型,根据这条直线可以预测在不同的成交量下股票的波动情况。常见的回归算法有最小二乘法、Lasso、SVR,图3.2为上述股票成交量与股票波动线性回归模型示意图。

图3.1 线性分类算法示意图

图3.2 回归算法示意图

2.无监督学习

在无监督学习中,训练数据并没有标签。此类机器学习的算法会自己得出数据里的内在结构。常见的无监督学习的算法有属于聚类算法的K-Means、GMM,此类算法会将数据根据其本身的特征分好类别,不需要人为分类。如图3.3所示,根据股票成交量及收益率,此类机器学习将股票分成三组结构,即大涨、不涨不跌和大跌。此外还有属于降维算法的PCA算法,如图3.4所示。此类算法是针对当原始数据特征太多,使得模型的学习过程过于复杂、耗时过长时,对数据降维的一种算法。该算法保留了最能反映数据特征的几个维度,而摒弃了较为多余的维度,能在减少计算量的基础上,保存原有数据的主要特征。在金融市场中,主成分分析法也可以用于筛选上市公司财报中大量的财务指标,得到能够代表大多数财务指标的所谓主成分指标,为投资者提供二级市场中的股票选择的参考。

图3.3 聚类算法示意图

图3.4 PCA算法示意图

3.半监督学习

半监督学习是介于监督学习和无监督学习中间的一种学习方式,此时部分数据被标识,部分数据没有被标识。半监督学习使用这两种数据来进行模式识别的工作。半监督学习的基本思想是利用数据分布上的模型假设建立学习器对未标签样例进行标签。半监督学习分为直推和归纳两种方式。直推方式是只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签;归纳方式是处理整个样本空间中所有给定和未知的样例,同时利用训练数据中有类标签的样本和无类标签的样例,以及未知的测试样例一起进行训练,不仅预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签。

下面介绍自训练算法(Self-Training)中的最近邻算法。如图3.5所示,深色空心圆点和深色叉点是两个有标签的样本,记为集合L,其余的浅色实心圆点为无标签样本,记为集合U。随后根据欧氏距离来给集合U中的样本分类,如此下去,集合U不断减小,集合L不断增大,直到集合U变为空集后,训练结束。

图3.5 自训练算法示意图