量化研究体系:以7大模块为核心
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第3章 算法库

不同的算法都有其适合的处理情境,本章根据量化交易的需求,选取了5种有代表性的机器学习算法,分别是傅里叶变换、ReliefF、高斯混合聚类、Chi-Merge、粗糙集(结合Chi-Merge)。这5种算法在逻辑上和功能上都有所不同,能够相互补充,自成一套体系。具体地讲:傅里叶变换是基于数学分析的一种算法,它主要用于时间序列的成分分析,可以用于时间序列的噪声去除;ReliefF是特征筛选算法,它基于几何意义上的距离的概念来对特征重要性进行评判,从而筛选出重要的特征;高斯混合聚类又称为GMM,该算法基于概率统计的理论,以正态分布来拟合特征的分布,从正态分布中得出每个样本归属的概率,大概率属于同一类的样本聚在一起,最终实现所有样本的聚类;Chi-Merge是一种将数值连续的样本特征进行离散化的算法,用于减小特征数据的复杂度;粗糙集是基于集合论的规则化逻辑推理算法,根据基于集合论的一些性质,建立用于分类的逻辑规则,来实现不同样本的分类。

算法本质上都是一种从特征集X到目标集Y的映射。傅里叶变换是对Y的成分分析,用于简化Y,ReliefF则是筛选X,以减少特征数量来简化X(在特征集矩阵的列方向上简化),Chi-Merge离散化X也是一种简化,但侧重于改变X本身的数值(在特征集矩阵的行方向上简化)而非改变特征的数量。高斯混合聚类(GMM)和粗糙集则是建立从XY的映射关系的算法,GMM是聚类算法(无训练标签),粗糙集是分类算法(有训练标签)。受篇幅限制,本章对机器学习常见算法进行简单介绍,如果读者对机器学习算法感兴趣,可以按照此处所讲的5种算法的逻辑,对算法库进行进一步补充和完善,并形成自己的算法体系。