第三节 研究内容及创新
研究内容可以从目录一览大概,但其中各章节内在的逻辑关系通过一个流程图 (见图1-1) 可能更一目了然:首先,回顾历史文献,定位研究坐标;界定相关概念、研究其基本性质并提出全书的总体分析框架;在数据准备的同时对文题做了必要的注释。接下来的内容分为两个部分:方法和理论探索,其中,前者在更一般的意义上讨论方法并将其应用于金融高频数据;后者则将重点放在金融高频数据及其理论基础。最后是全书结论。
图1-1 本书的逻辑结构
研究创新主要体现在:
(1) 在对金融高频数据研究相关领域梳理的基础上,区分了“交易高频数据”与“高频交易数据”,研究了高频数据的经验和理论特征,并且指出,金融高频数据不能单纯理解为时间序列,这样做至少忽略日内与日间两个维度各自具有的不同分布特征,为此提出了序贯面板数据变换,得到一个看待金融高频数据的双重视角。
(2) 阐明了数据挖掘的统计学内涵以及区别于统计学的一些显著特征 (如非参数方法与参数方法,探索性数据分析与验证性数据分析,统计学习理论与渐进理论等),指出了统计分析的本质属性是对数据的阅读(提取其中的信息和知识,这在一定程度上决定了理解数据背景或环境的重要性,统计分析离不开它所应用的土壤),建立模型、计算机程序实现都是为之服务的,不能喧宾夺主。
(3) 从与面板数据、符号数据、计量模型比较的角度研究了函数数据及其基本原理,讨论了基展开的本质 (可以是正交基或非正交基) ——在基构成的子空间下求得相应的坐标 (将波动分解为在各基方向上的波动),这相当于变换到时域以外的 (频) 域进行分析。函数数据分析的一个重要步骤是将离散数据连续化 (主要讨论含有微结构噪声条件下的平滑),另外,在不含有微结构噪声条件下,我们从数字信号处理的角度探讨了连续信号离散化的理论基础。
(4) 研究了HHT提出的理论背景和基本逻辑,并与Fourier变换和小波变换做了对比;讨论了IMF的正交性 (非严格正交、统计正交),并从成分数据分析的角度研究了约束条件带来的影响。以金融高频数据为例进行了实证分析,讨论了序列的分解与重构问题,并仿效时间序列加法因素分解,将非线性非平稳序列也分解为趋势成分、周期成分与随机成分。不同之处在于,这里的周期是可变的,即这里的分解是动态的;同时分解的对象可以是非平稳非线性序列。
(5) 提出协同波动率。通常计算波动率是将变量抽离出来单独计算,或以历史为条件从动态的视角切入,协同波动率强调了波动所处的空间并非“真空”,而是考虑受扰于其他相关随机变量波动条件下的波动程度。协同波动率的构建基于相关分析和随机变量取值的频数 (非实际取值),所以它具有对称性,同时不受取样频率所限,也有益于从概率分布的角度来探讨波动。最后,协同波动率的构建是不依赖于模型的 (model-free)。
(6) 从统计学习理论 (支持向量机的逻辑背景) 和经验分析 (金融高频数据交易方向推断) 两方面质疑了混合核函数的做法。尽管各种核函数秉性各异,但不同的核函数得到的共同支持向量的比例很高,因而对结果的影响并不显著,此时采用混合核函数是得不偿失的。模型的优劣并不体现在复杂程度上,因为模型并不是现实的复制,而是现实的抽象和简化。
(7) 从算法复杂度对泛化能力的影响以及信息重叠两个方面评估了混合核函数的有效性。混合核函数方法并没有解决核函数的选择问题,只是将问题等价转换为权重参数的选择。同时该方法还需要分别为两个核函数确定参数,大大增加了算法的复杂程度,限制了支持向量机的泛化能力。事实上,调节核函数的参数对分类结果的影响要远大于选择什么类型的核函数。实证分析表明,不同核函数对应的共同支持向量比例很高,存在很大程度的一致性,这也是混合核函数方法无法有效提升分类性能的一个重要原因。
(8) 市场微观结构理论、奥地利学派、芝加哥学派、行为经济学等都强调对微观过程的关注,但各有侧重,在对这些方法论比较的基础上,我们研究了个人与群体所具有的不同逻辑、预期理论体系、市场过程等方面,并从一个综合的视角解释了日历效应和日内收益率一阶负相关等现象,特别是将日历效应推广到一般的间歇性时限情景中加以解释,但这种解释的视角是把交易者当做一个整体来研究的,为寻找其中的微观基础,我们还构造了一个博弈模型。
(9) 通过经验分析验证了随机交易间隔存在很强的聚集性 (cluster),其概率分布与指数分布相近,从而倒推出单位时间内的交易次数服从Poisson分布。随机交易间隔含有重要的交易信息,但并非“字字玑珠”(微结构噪声的干扰),所以有一个信息提取的问题。事实上,在研究间隔分布的时候,噪声并不是一个重要的因素 (被解释变量与噪声的概率分布是相同的);但是,变量之间的关系很可能被噪声掩盖。