统计学视角下的金融高频数据挖掘理论与方法研究
上QQ阅读APP看书,第一时间看更新

第三章 数据准备及大规模数据集的分析逻辑

数据挖掘是要从数据中提取信息发现知识,而对金融资产价格信息含量的提炼是目前金融研究领域的一个重要的取向——从各种金融资产(股票债券衍生品等) 的市场价格中提炼或翻译出市场对各种风险和价格走向的预期。

从字面上来看,不管是data mining还是data dredging早先,统计学家们并不喜欢数据挖掘 (data mining) 这个词,所以后来就改成了数据清淤/疏浚 (data dredging)。数据挖掘其实就是“寻找大尺度数据中的结构”(finding structure in large-scale databases) 的一个比较流行的说法 (因为从数据中寻找结构并不是新的内容,新的是挖掘对象——大尺度的数据库)。在人工智能领域,它可能更多地被称为数据库中的知识发现 (Knowledge Discovery in Databases, KDD) 或机器学习 (machine learning);工程领域则多谓之模式识别 (pattern recognition)。事实上,从某种程度上来讲,机器学习比数据挖掘更宽泛一些,因为数据挖掘更倾向于的是一种非监督学习,比如聚类、关联规则等,是一种完全探索性的数据分析;而机器学习包括非监督学习 (unsupervised learning)、监督学习 (supervised learning)、半监督学习 (semi-supervised learning) 和强化学习 (reinforcement learning) 等,特别是在很多场合更注重对输出变量的预测,即监督学习。都表明,我们想要的“精华”往往远少于掺杂在其中的“糟粕”,可谓是“大浪淘沙”。想想看,挖掘一座山最后能提炼多少黄金呢?数据清洗、数据准备的重要性也在这里了。此外,这么少的精华能覆盖挖掘成本吗?是否得不偿失呢?

我们注意到,“数据准备”所花费的时间通常理应要比“数据分析”长,然而不幸的是,我们常常不屑于“数据准备”,而且为在既定 (短)时间内找到最优解,我们往往还倾向于压缩数据准备的时间。事实上,数据若没有充分准备好就开始分析,反而会增加数据分析的时间。“磨刀不误砍柴工”也是这个道理。

在这一章中,我们首先要阐明全书的基调,这也可以看做是对标题“统计学视角下的金融高频数据挖掘理论与方法研究”的某种释义,如“统计学视角”是什么意思?既然是“统计学视角”,那么统计分析的本质属性是什么?数据挖掘的统计学内涵又是什么?数据挖掘与统计学之间到底是什么关系?接下来,我们对所使用到的数据及其背景、机理做了简要的交代,这是任何数据分析的必要前提。最后,着重从云计算的角度探讨了大规模数据集的分析逻辑。