上QQ阅读APP看书,第一时间看更新
第三章 数据准备及大规模数据集的分析逻辑
数据挖掘是要从数据中提取信息发现知识,而对金融资产价格信息含量的提炼是目前金融研究领域的一个重要的取向——从各种金融资产(股票债券衍生品等) 的市场价格中提炼或翻译出市场对各种风险和价格走向的预期。
从字面上来看,不管是data mining还是data dredging都表明,我们想要的“精华”往往远少于掺杂在其中的“糟粕”,可谓是“大浪淘沙”。想想看,挖掘一座山最后能提炼多少黄金呢?数据清洗、数据准备的重要性也在这里了。此外,这么少的精华能覆盖挖掘成本吗?是否得不偿失呢?
我们注意到,“数据准备”所花费的时间通常理应要比“数据分析”长,然而不幸的是,我们常常不屑于“数据准备”,而且为在既定 (短)时间内找到最优解,我们往往还倾向于压缩数据准备的时间。事实上,数据若没有充分准备好就开始分析,反而会增加数据分析的时间。“磨刀不误砍柴工”也是这个道理。
在这一章中,我们首先要阐明全书的基调,这也可以看做是对标题“统计学视角下的金融高频数据挖掘理论与方法研究”的某种释义,如“统计学视角”是什么意思?既然是“统计学视角”,那么统计分析的本质属性是什么?数据挖掘的统计学内涵又是什么?数据挖掘与统计学之间到底是什么关系?接下来,我们对所使用到的数据及其背景、机理做了简要的交代,这是任何数据分析的必要前提。最后,着重从云计算的角度探讨了大规模数据集的分析逻辑。