前言
随着技术的不断成熟,对金融数据观测的频率越来越细致,甚至可以实时跟踪交易数据并在精度上达到毫秒、微秒。这类数据有助于理解投资行为和交易过程的细节,同时也对经典的分析工具提出了挑战,比如,如何处理复杂的大规模数据集、跳跃成分以及伴随日内模式和复杂关联结构的随机交易间隔。
在物理和生物科学中,当分析的尺度降为分子或原子时,有些被略去的成分逐渐变得重要起来。金融市场亦如此,市场微结构在低频情况下可以忽略,但在高频数据中却是重要的;低频数据可以用几何布朗运动来近似,而高频数据却行不通。频率从日到分钟,与频率从月到日,是有本质区别的。
一般而言,金融高频数据分析主要涉及基本经验事实的归纳、市场微结构分析以及计量经济建模等几个方面。其中,根据Herwartz (2006) 的观点,高频数据建模至少可以分为三类:(1) 价格离散变动建模 (不考虑取样的时间维); (2) 固定时间间隔建模 (间隔作为外生变量);(3) 随机交易间隔建模 (间隔是交易的函数)。但考虑到等间隔的非同时性、微结构动态等因素,事实上最近的很多模型都兼顾到随机间隔的情形。
本书首先在回顾历史文献的基础上,界定高频数据的相关概念、研究其性质,并提出全书的总体分析框架;在数据准备的同时对“统计视角”做了必要的注释。接下来的内容分为两个部分:方法和理论探索,其中,前者在更一般的意义上讨论方法;后者则将重点放在高频数据及其理论基础上。最后给出全书结论。
方法探讨由四个章节组成,其中,第四章和第五章属于典型的探索性数据分析 (Explotary Data Analysis, EDA);第六章讨论波动率问题,提出协同波动率,它是一类模型自由的波动率估计方法;第七章以金融高频数据交易方向推断为例,结合支持向量机提出的理论背景 (统计学习理论),对支持向量机混合核函数的做法提出了异议。理论探讨部分包括两个章节,其中,第八章市场微观结构分析对金融高频数据的现实背景、运行环境以及相关理论和方法进行了深入研究;第九章是随机交易间隔分析,着重分析了信息与噪声的边界问题。具体地:
在第一章对金融高频数据相关研究领域文献梳理的基础上,第二章首先提出,金融高频数据不仅仅是作为一个优质的时间序列用来验证在以往粗糙信息下建立的经典理论与模型,因为金融高频数据不能单纯理解为时间序列,这样至少忽略了日内与日间两个不同维度各自所具有的分布特征。为此提出了序贯面板数据变换,得到一个看待金融高频数据的双重视角。其中,“i(t)视角”本质上是样本的细化,它分析的对象仍然以天为单位,只是每天的数据更细致而已;“t(i)视角”相当于对“交易日”的重复观测,它分析的对象就是这一天,关心的是短期行为 (微观结构)。在第二章,我们还区分了“交易高频数据”与“高频交易数据”,其中,后者是对“高频交易”的记录,而前者很大程度上是对“一般交易”的实时记录。二者的共同点是对短期的关注。另外,采用高频数据验证市场有效性可以为高频交易是否存在获利机会提供佐证。接下来我们对金融高频数据的经验和理论特征分别予以考察。
第三章首先对“统计视角”做了解释,讨论了数据挖掘的统计学内涵以及区别于统计学的显著特征,指出了统计分析的本质属性是对数据的阅读 (提取其中的信息和知识,这在一定程度上决定了理解数据背景或环境的重要性,统计分析离不开它所应用的土壤),最后着重从云计算的角度探讨了大规模数据处理的基本逻辑。
第四章从一个统一的框架考察了连续信号与离散信号之间的关系。在不含有微结构噪声条件下,基于数字信号处理探讨了连续信号离散化的理论基础,论证了采样的本质 (对采样函数偏移后做基展开)。函数数据分析的一个重要步骤是将离散数据连续化 (含有微结构噪声),研究了函数数据与面板数据、符号数据之间的异同,以及函数数据分析的基本原理,特别是对基展开的本质做了广泛的讨论。基展开 (可以是正交基或非正交基) 就是在基构成的子空间下求得相应的坐标 (将波动分解为在各基方向上的波动),这相当于变换到时域以外的 (频) 域进行分析。插值与平滑都是函数逼近 (拟合) 问题,从一般意义上 (度量空间) 对此做了规范分析。最后,我们用一个例子说明了函数数据分析如何有助于对金融市场行为细节的刻画。
第五章研究了希尔伯特—黄变换提出的理论背景和基本逻辑,并与傅里叶变换和小波变换做了对比;讨论了IMF的正交性,并从成分数据分析的角度研究了约束条件带来的影响。以金融高频数据为例进行实证分析,讨论了序列的分解与重构问题,并仿效时间序列加法因素分解,将非线性非平稳序列也分解为趋势、周期与随机波动。不同之处在于,这里的周期是可变的,即这里的分解是动态的,且分解的对象可以是非平稳非线性序列。
第六章在回顾时变 (条件) 波动测度的基本方法的基础上提出了一类模型自由的波动率估计方法。协同波动率强调波动所处的空间并非“真空”,而是考虑受扰于其他相关随机变量波动条件下的波动程度。而通常计算波动率是将变量抽离出来单独计算,或以自身历史为条件从动态的视角切入。协同波动率的构建基于相关分析和随机变量取值的频数(非实际取值),所以它具有对称性,同时不受取样频率所限,也有益于从概率分布的角度来探讨波动。与已实现波动率类似,协同波动率也会随平均组距减少 (组数增加) 而增加,这可能主要受微结构噪声的影响。
第七章评估混合核函数的有效性。注意到混合核函数方法并没有解决核函数的选择问题,只是将问题等价转换为权重参数的选择。同时该方法还需要分别为两个核函数确定参数,大大增加了算法的复杂程度,限制了支持向量机的泛化能力。事实上,调节核函数的参数对分类结果的影响要远大于选择什么类型的核函数,因此混合核函数方法实属“避轻就重”。实证分析表明,不同核函数对应的共同支持向量比例很高,存在很大程度的一致性,线性组合的意义并不大,这也是混合核函数方法无法有效提升分类性能的一个重要原因。因此有必要对支持向量机的混合核函数方法做进一步的深入研究,讨论混合核函数在支持向量机中的有效性。明确了核函数在支持向量机中的具体作用,继而从算法复杂度对泛化能力的影响以及信息重叠两个方面研究了混合核函数无法有效改进分类结果的原因。
第八章研究市场微观结构理论 (market microstructure theory)。不同于传统理论着眼于长期均衡 (忽视调整过程中的摩擦),市场微结构理论研究的主要是,在考虑微结构因素影响的条件下,有效均衡价格发现的机理,或向均衡或新均衡的转移动态过程;反过来,价格形成过程中渗漏出来的信息对交易行为和策略有何影响;市场是通过价格发挥作用的,那么,进一步还可以讨论市场微观结构对市场效率和质量的影响,这涉及市场机制的设计与选择。在这一章,我们还对几种强调微观过程的方法 (奥地利学派、芝加哥学派、行为经济学等) 做了比较,并从一个综合的视角解释了日历效应和日内收益率一阶负相关等现象,特别是将日历效应推广到一般的间歇性时限情景中加以解释,但这种解释的视角是把交易者当做一个整体来研究的,为寻找其中的微观基础,我们还构造了一个博弈模型。
第九章通过经验分析验证了随机交易间隔存在很强的聚集性,其概率分布与指数分布相近,从而倒推出单位时间内的交易次数服从Poisson分布,这些都与经典的假定 (如ACD模型扰动项服从指数分布,跳跃成分假定由Poisson过程驱动等) 相吻合。同时推导了随机交易间隔下的收益率计算方法。事实上,尽管随机交易间隔含有重要的交易信息,但并非“字字玑珠”(受微结构噪声干扰),所以这里面有一个信息提取的问题。尽管在研究间隔分布时,噪声并不是一个重要的因素 (被解释变量与噪声的概率分布是相同的),但是,变量之间的关系很可能被噪声掩盖。剔除噪声之后我们发现:(1) 收益率对随机间隔的变化并不敏感;(2) 价格与随机间隔之间可能存在非线性关系,但价格变动与随机间隔之间不存在显著关系;(3) 交易量与随机间隔之间可能存在负相关关系。