统计学视角下的金融高频数据挖掘理论与方法研究
上QQ阅读APP看书,第一时间看更新

第二节 国内外文献综述

在文献综述部分,我们有选择性地考察金融高频数据几个相关研究领域的脉络,在梳理各个研究分支的同时也以长期关注这个领域的专家学者为线索。

一 日内模式、随机交易间隔建模与市场微结构理论

关于金融 (超) 高频数据至少可以追溯到二十五六年前,早期主要是对日内模式的考察,如Wood等 (1985), McInish和Wood (1985a;1985b; 1992), Harris (1986), Admati和Pfleiderer (1988) 等,近期文献,如Heston等 (2010)。Baillie和Bollerslev (1990), Aggarwal和Gruca (1993) 以及Andersen和Bollerslev (1994; 1997), Kim等 (1998) 等的研究在不同的金融市场上都发现了交易高频数据的日内模式 (如波动率、交易量、交易频率、买卖价差等变量往往都会表现出U形特征)。最近的一篇论文提出了这样一个问题:剔除公共信息之后交易量与波动率仍呈U形模式吗?Eaves和Williams (2010) 考察了东京谷物交易所 (Tokyo Grain Exchange) 的期权数据,发现日内TGE交易量呈U形而日内波动率呈L形,而这些模式在剔除公共信息之后几乎不存在了,所以私人信息可能并不是日内模式的根源。

因为价格变动只能是最小单位 (tick) 的整数倍,所以还存在价格离散波动问题,如Harris (1994)。目前已有的建模方法有离散选择模型(discrete choice model; multiple choice model)、排序选择模型 (ordered choice model) 等。事实上如果考虑对日内价格波动建模,可能事先需要做一些恰当的变换,将价格波动放大,因为通常日内价格存在惰性,再加上熔断机制等限制,所以日内价格本身波动非常小,而建模的目的是为了对波动做出解释。

更细致的研究是对随机交易间隔的刻画,这方面影响比较大的是Engel (Robert F. Engle) 1994年与Russell (Jeffrey R. Russell) 提出的ACD模型 (autoregressive conditional duration, ACD) (1998年正式发表在Econometrica)。与ARCH模型一样,ACD模型也已经被广泛地发展成为一族模型,比如Bauwens和Giot (2000) 提出对数ACD模型;Zhang、Russell和Tsay (2001) 提出门限 (非线性) ACD模型等。具体可以参见张世英、樊智 (2009) 和徐国祥 (2009) 这两本书给出的总结。

与ACD模型有关的内容大致涉及两个方面,一个是方法上的——点过程,一个是理论背景——市场微结构理论。先说前者,如果需要对(标记) 点过程 (Simple/Marked Point Processes) 做进一步的阅读,邓永录和梁之舜 (2002)、Hautsch (2004; 2012)、Jacobsen (2006) 等几本书值得翻阅,也有一些近期的论文,如Bauwens和Hautsch (2006) 等。另一个是市场微结构理论,如Campbell (1997)、Tsay (2010) 这两本书都有讨论金融高频数据随机交易间隔建模的内容,但出发点都是市场微结构理论。Bauwens和Pierre Giot (2001) 这本书对股票市场的日内活动做了较为系统的研究,Brownlees和Gallo (2006) 的研究更多地偏向于数据清洗方面,这对于正确地运用高频数据去理解市场微结构是非常重要的。Bauwens还有一本与Veredas和Pohlmeier合作编辑的论文集 (2008),汇集了金融高频数据研究的最新进展。

市场微结构噪声 (market microstructure noise) 指的是如离散价格(price discreteness)、做市商制度下存在的买卖价差 (the bid-ask spread;the bid-ask bounce)、闭市效应 (market closing effects)、异步交易 (a-synchronous trading)、非频繁交易 (infrequent trading) 等交易的微观因素对短期数据分析的扰动。市场微结构理论 (market microstructure theory)主要研究的是现实中 (有摩擦的交易) 价格形成的动态过程 (潜在的投资需求如何转化成价格和交易量),比如通过考察信息不对称、市场结构(market structure)、交易者行为 (individual behavior)、流动性等因素来解释为什么现实中的价格没有按照理论上有效的方式变动;这些因素如何作用于价格形成的动态过程;如何通过比较不同的交易机制对价格的影响来选择最优的交易机制;金融市场的结构差异性很大,不同交易机制下市场参与者的行为对资产价格的形成过程影响不同,但是内嵌的文化往往被忽略了。这就好像A先进的学习方法可能并不适合B来模仿。因此,或许讨论最适交易机制要比单纯经济标准下的最优交易机制更合适。如何估计流动性、交易成本的大小等类似问题。这些问题看似无关痛痒,实则包含有重要的政策含义。

一般认为,市场微结构理论始于德姆塞茨 (Demsetz,1968) 的《交易成本》(The Cost of Transaction) 一文,研究了交易机制对金融资产价格的影响。明确提出“Market Microstructure”这一概念的可以说是Garman (1976),这篇文章研究了做市商制度对价格行为的影响。O'Hara (1996)、Spulber (1999)、Madhavan (2000)、Biais (2005)、de Jong和Rindi (2009) 等对市场微结构理论做了较为全面的论述。在实证市场微结构方面,有McInish (Thomas H. McInish)、Russell (2010)、Hasbrouck (2007)、Calamia (1999) 等,还有Stoll (1999) 编辑出版的两卷本论文集事实上,1993年,Stoll就曾以“Microstructure of World Trading Markets”编辑出版了The Journal of Financial Services Research一期特刊[1993,6 (4)]——这是1992年在Vanderbilt大学召开的学术会议论文集。等对市场微结构理论都有较为系统的论述。国内方面主要有施东晖和孙培源(2005)、江曙霞等 (2006)、陈浪南等 (2008)、刘逖 (2012) 等。

资产定价理论研究的是长期均衡价格的决定,市场微结构理论研究的是短期交易价格收敛或偏离于长期均衡价格的过程,或者换句话说,市场微结构理论关心的是投资者的潜在需求最终转化为价和量的中间过程(Madhavan,2000),这其中会涉及价格形成 (price formation)、价格发现(price discovery)、存货 (inventory)、流动性 (liquidity)、交易成本(transaction costs)、信息扩散和发布 (information diffusion and dissemination) 等问题。Amihud、Mendelson和Pedersen (2005) 讨论了市场微观结构与资产定价相关的议题。

Osler (Carol Osler) 主要关注货币 (外汇) 市场的微结构 (currency market microstructure),如Osler等 (2010)、Osler (2008)、Osler (2006)。这方面的文献还有Sarno和Taylor (2001)、Evans (2010)。Lyons (2001) 比较系统地介绍了如何将市场微结构方法应用于汇率。以外汇市场高频数据为研究对象的代表性文献还有Goodhart和Payne (2001) 编辑出版的这本论文集。虽然外汇市场是24小时开放的,由于外汇交易在全球各地进行,因此市场每日24小时开放。但一般而言,货币通常在其对应的市场交易最为活跃 (执行的交易越多),买卖差价也相应地越小 (流动性好)。比如英镑之于英国,日元之于东京。交易时间重叠的时段,一般交易量较大。但它也有所谓的日内模式 (Dacorogna,1993)。

Torben G. Andersen和Tim Bollerslev主要是从波动率的角度来研究市场微结构理论的,如Andersen等 (1998) 反驳Ito等 (1998) 的文章。Neil Shephard、Federico M. Bandi、Michael McAleer亦如此,也主要研究波动率的计量、跳等内容,重在统计方法。

二 波动率、微结构噪声与最优取样间隔

资产价格的波动性蕴含着资产收益与风险的信息,且可作为市场行为特征的外化,因而考察资产价格波动性的理论与方法一直是金融领域一个活跃的研究主题。在20世纪70年代以前,通常假定波动率不随时间变化(平稳的),但很多实证数据已表明波动率是非平稳的 (异方差),最简单的修正是假定波动率在短期内平稳:

设移动窗口为w,其中,窗宽可以取w=2,3, …,则,

等权移动:

线性加权移动:

指数加权移动:

以上移动窗口估计无法描述波动的聚集性特征。Enger (1982) 提出的自回归条件异方差 (auto regression condition heterogeneous, ARCH) ——条件波动 (conditional variance, CV) ——及其扩展形式GARCH (Bollerslev,1986)、Taylor (1986) 提出的随机波动 (stochastic volatility, SV) 等模型皆假定波动率随时间变化,且这些模型能够较好地刻画波动率的聚集性以及金融数据尖峰厚尾等特征,但却拙于对非对称性和长记忆特征的捕捉。

在非对称性方面,以ARCH族为基础,Zakoian (1990) 提出TARCH模型;Nelson (1991) 提出EGARCH模型;Ding et al. (1993) 提出PARCH模型等。Caporin和McAleer (2006) 提出动态非对称自回归条件异方差模型来刻画波动率的结构,通过设置多个门限体现了收益率残差的大小和符号同时对波动率的影响,且能够更好地刻画波动率的持续性以及非对称效应对时间的依赖性。对波动率长记忆特征的刻画采用的核心技术是分数整 (对单整的扩展),这也是一次重要的研究突破。Bollerslev和Ole Mikkelsen (1996) 提出分数阶求和指数自回归条件异方差模型,该方法的好处是可以同时对波动率的长记性和不对称性进行刻画,但计算烦琐,且很难推广到高维。Bollerslev和Wright (1998) 以高频数据研究了波动的长记忆性问题。

我们注意到,金融市场之间日益密切的联系使得各个市场的波动会相互传导、溢出,甚至被放大。Engle和Kroner (1995), Bollerslev等(1988) 继续扩展了GARCH模型,得到多变量的GARCH (MV-GARCH,或Vec-GARCH)。但是估计该模型需要有更进一步的限制条件才可以,因为在很多情况下,不能保证条件的方差异方差矩阵是正定的 (事实上在最大化似然函数的过程中也很难附加合适的限制条件)。所以,为了简化估计过程,经常假定相关系数是时变的。Bollerslev (1990) 的常数条件相关模型 (Constant Conditional Correlation, CCC) 指出,如果相关系数是恒常的,那么相关系数矩阵的极大似然估计等于样本相关系数矩阵,而样本相关系数矩阵总是正定的,这就保证了条件的方差异方差矩阵肯定是正定的。Engle (2002) 提出的一类多变量模型即是专门讨论时变相关的,这种方法的特点是,使条件相关系数直接参数化,从而DCC (Dynamic conditional correlation) 模型的估计可以分为两步:首先对所建立单变量的GARCH模型进行估计,然后再估计相关系。这样的好处是,在计算上没有传统的多变量GARCH模型那么复杂,反而具有单变量GARCH模型的灵活性,这得益于这种方法使得相关过程中所需估计的参数独立于相关序列的数目。也正因如此,对高维属性构成的相关系数矩阵的估计也就变得相对容易了。但因为资产序列的高频数据并不是同时记录的,这就无法直接应用传统的维度缩减技术对大型协方差矩阵降维。

与ARCH类模型将波动理解为一些历史信息的线性组合不同的是,由Taylor (1986; 1994), Jacquier等 (1994; 1995), Shephard (2005), Shephard和Andersen (2008) 等提出并发展的SV (stochastic volatility;stochastic variance) 类模型则是通过微分方程来刻画波动,将波动理解为不可观测的随机过程——波动率是从特定分布中抽取的随机变量。SV模型易于建模和解释,其主要困难在于参数估计 (20世纪90年代发展出来的一系列模拟方法有效地改进了参数估计), Jacquier等 (1994)、Andersen和Srensen (1996)、Barndor - Nielsen (2002)、Bollerslev和Zhou (2002)、Hoffmann (2002) 等对SV模型的估计问题做了广泛的探讨 (矩方法、Bayesian方法等)。Breidt等 (1998)、Comte和Renault (1998) 等研究了其中的长记忆问题;Kim等 (1998) 还进一步对SV与ARCH做了比较。对于SV模型的扩展研究也非常多,张世英和樊智 (2009) 已给出了一个很好的归纳。

由此可见,金融研究领域的数学模型大都是为刻画波动的时变性、聚集性、非对称性和长记忆性等特征而提出的,然而这些模型大都无法直接应用于高频数据。除了连续时间的SV模型,高频数据主要采用French等(1987) 提出的已实现波动率 (realized volatility, RV) 来对波动率进行测量,通过波动率来深入分析和研究交易的内在机制。与ARCH族和SV族模型相比,RV无须设定模型 (model free),也无须进行复杂的参数估计,对日内高频收益求平方和即可得到已实现波动率。而且,如果价格遵循普通的扩散过程 (连续时间半鞅模型),已实现波动率是无偏的。特别是当高频数据日内取样频率足够高时 (时间间隔趋近于0),已实现波动率可以无限逼近积分波动率 (integrated volatility, IV,也称“累积波动率”或“瞬时波动率”) 在样本区间上的积分。然而在实际应用中,由于受到多种因素的干扰 (如在高频数据中不可忽视的微结构噪声如买卖价跃动 (the bid -ask spread; the bid -ask bounce)、离散价格 (price discreteness)、闭市效应 (market closing effects)、非同步交易 (asynchronous trading)、非频繁交易 (infrequent trading) 等。),已实现波动率并不是积分波动的一致估计,有较严重的偏差。特别是随着取样频率增加,已实现波动率发散,这与概率统计理论的基本观念相冲突。

为矫正微结构噪声带来的偏差,有学者研究了如何从中剔除日内模式的干扰,如Andersen和Bollerslev (1994; 1995; 1998) 的研究发现,如果剔除日历性,那么会大大降低频率数据中的持续性,故采用FFF (Fourier Flexible Form) 剔除日内季节性,并将波动率分解为日间波动 (ARCH效应)、日内波动和随机误差三部分进行了考察。Dacorogna等 (1996)引入time deformation对物理时间做变换,使其与交易活跃度成正比,从而剔除波动率的季节性,并发现波动率的自相关系数在短期内快于而在长期慢于指数衰减率,这说明收益率波动一方面具有相对持久的记忆性,另一方面短期波动则来去较快。

为减弱微结构噪声的影响,可以采用低频数据,但低频数据对市场信息利用率低。很多研究还采用一个隐藏的半鞅模型 (hidden semi-martin-gale model) 来拟合包含微结构噪声的数据,为得到积分波动率的无偏一致估计,Zhang等 (2005) 提出双时间尺度已实现波动率 (two time scale realized volatility); Zhang (2006) 进一步提出了多尺度已实现波动率(multi-scale realized volatility, MSRV)。可以说该方法得到的估计量自动完成了对数据的清洗。Bandi和Russell (2006) 通过不同取样频率下构造的样本矩分别估计了真值和微结构噪声的波动情况。Christensen等(2005) 引入极差理论,得到已实现极差波动 (realized range-based volatility, RRV)。唐勇等 (2006) 进一步讨论了RRV的加权形式。Nielsen和Frederiksen (2008) 在不同的瞬时波动过程 (instantaneous volatility process) 的假定下对目前估计积分波动的三种方法——已实现波动、频域估计 (Fourier estimation) 和小波估计 (wavelet estimation) ——的性质进行了比较研究,在考虑微结构噪声的情形下,频域估计更值得推荐。荆炳义 (2010) 提出了积分波动率的一个新的无偏估计量,该估计量对市场微结构噪声和跳跃成分有很好的稳健性。Tauchen和Todorov (2012) 提出了已实现波动Laplace变换 (Realized Laplace Transform of volatility, RLT),与RV将数据映射为一个随机变量不同的是,RLT将数据映射为一个随机函数。

Müller等 (1997) 研究了不同时间尺度下波动性之间的关系。Barndorff-Nielsen和Shephard (2004)、Bandi和Russell (2005)、Mykland和Zhang (2006)、Voev和Lunde (2007) 等多位学者研究了受微结构噪声污染的积分协方差估计问题。这涉及所谓的Epps效应 (资产组合收益率的相关性会随采样频率增加而下降),在高频数据中,它主要是市场微结构噪声引起的,更细致的研究如Bence Tótha和János Kertész (2007) 回顾了相关研究发现,引起Epps效应 (Epps effect) 的两类主要原因中,领先滞后效应 (the lead-lag effect) 并不重要,非同时交易 (non-syn-chronous/asynchronous trading) 的作用越来越凸显;Zhang (2010) 研究发现,传统的协方差估计的偏误很大程度上与累积的非同时交易 (cumulative nonsynchronicity between the trading times of two different assets) 有关,而渐进方差受时间离散和微结构噪声影响;Münnix等 (2010) 认为原因在于离散价格 (discretization effects),因为证券价格的最小变动单位(tick-size或minimum tick) 对收益率分布的结构有显著影响,当取样间隔很小时 (高频数据),最小变动单位 (tick-size) 强化了Epps效应。

由上可见,使用高频数据做统计推断最主要的问题是市场微结构噪声的影响,特别是取样频率越高,微结构噪声的影响越突出,即大规模逐笔记录数据,噪声会掩盖其中的信息 (此时噪声是主要的)。所以金融市场的资产价格虽以高频观测,但一般会利用收盘价,甚至更低的频率 (如周、月数据)。当然也不难想象,微结构噪声应该是比较小的,否则会带来套利的可能。微结构噪声会干扰波动率估计,比如当取样频率较高时,已实现波动率并不是真实波动情况的反映,而很大程度上测量的是微结构噪声的波动情况 (RV随频率增加而发散的原因可能也在这里)。为此,传统的做法是通过降低取样频率来弱化微结构噪声的影响,然而采用低频数据又不可避免地会损失有价值的日内信息。所以为权衡微结构噪声与信息,就涉及一个最优取样频率的问题。大多文献都是在波动率估计背景下讨论的,如(2005)、Bandi和Russell (2005)、Nielsen和Frederiksen (2008),郭名媛和张世英等 (2006)。Anderson等 (1999;2000) 定义了一个检测微结构噪声影响大小的指标 (the signature plot), Rosenbaum (2011) 在此基础上做了修正。Zhang等 (2005) 的巧妙之处在于采用多重取样尺度回避了这一问题。事实上,关于混频的观念还可以参考Tao等 (2011),以及Ghysels等 (2004; 2006; 2007; 2010) 发展的混频回归 (meaning Mixed Data Sampling, MIDAS), Eric Ghysels在他的主页上还给出了该方法的Matlab程序。还有一种权宜之计是采用日内价格的一个区间作为分析单位,如[min, max]或[分位数],这方面的文献可以参考Ullah和Giles (2011) 的第10章。当然也可以考虑动态或分段异步取样,但这种复杂性或许是得不偿失的。事实上,分析单位既然考虑了区间,自然想到曲线,这样,函数数据分析这个工具可能是非常便利的。

三 连续时间模型

读Tauchen (2001) 这篇文章,不难有这样的体会:似乎离散时间序列主要涉及的问题是建模,如前文提及的ARCH族、SV族等波动模型;而连续时间模型则主要集中在估计 (特别是各种情形下波动率的估计),如给定一个连续时间动态模型,如何估计离散取样序列的条件密度的解析解。这里提到两个思路:极大似然方法 (很难推广到多变量) 和基于模拟的矩方法 (simulation-based moments estimators)。

自Black和Scholes (1973) 以来,布朗运动 (Brown motion) 一直是刻画资产及衍生证券价格波动的基准模型,Merton (1976) 引入跳跃成分 (jump) 推广了该基准模型,随后的研究大都是在同时包含连续和离散成分下进行的,如Cont和Tankov (2004)、Barndorff-Nielsen和Shephard (2004; 2005; 2006)、Lee和Mykland (2007)、Todorov等 (2009;2010; 2011)。在跳跃成分的研究方面,Todorov是不容忽视的研究者,他的博士论文Jump Processes in Finance: Modeling, Simulation, Inference and Pricing,以及近期的文章如Todorov和Tauchen (2010a)、Jacod和Todorov (2010)、Bollerslev和Todorov (2010)、Todorov和Bollerslev等 (2010)一直围绕着这一主题。

注1:Wt服从正态分布,且有独立平稳增量。Brownian运动的重要特征是:(1) 样本路径是连续的 (continuity); (2) 尺度不变 (scale invariance,类似分形的自相似)。而真实的对数价格行为是离散的,而且尺度越细,跳跃成分越明显。所以只有粗粒化 (coarse graining) 的真实数据才近似Brownian运动。这与有效性检验倾向于在低频条件下成立相似。

还有多位学者采用金融高频数据对是否包含跳跃成分以及跳跃成分的大小做出了验证,如Fan和Wang (2007) 提出了一种兼顾处理价格中的跳跃行为和微结构噪声的方法;Ait-Sahalia和Jacod (2009) 提出了一类广义跳跃指数 (a general jump activity index),但因跃阶较大,使有效样本缩减,为此Jing (2011a) 进一步细化了跳跃的幅度。Todorov和Tauchen (2010b) 定义了一个活动特征函数 (activity signature function)来诊断过程中是否包含连续鞅,实证表明,跳扩散过程 (jump-diffusion model) 比纯跳过程 (pure - jump model) 更合适。Yacine和Jacod (2010) 采用金融高频数据检验了价格波动包含连续成分的必要性,Jing (2011b) 在此背景下又提出了关于检验跳跃成分的新统计量。

Zhou (1992) 的研究发现,金融高频数据不再像低频数据那样遵循布朗运动,高频与低频的区别仅仅是噪声层面的:在低频数据里,噪声可以被忽略;然而在高频数据里,噪声是显著的。Madhavan等 (1997) 对纽约交易所的274个高频样本的研究发现,60%的价格波动可以归因于微结构噪声。此外需要注意到,金融高频数据建模实际上似乎大都在使用HFD近似连续的特性,但对HFD本身的关注并不多。

四 国内研究现状

国内较早关注金融高频数据分析的学者主要有以下一些:刘勤和顾岚(2001) 考察了股票日内交易在不同取样频率下的统计差异性;郭兴义等(2002) 综述了国外高频与超高频数据分析的若干结论和建模方法;黄后川和陈浪南 (2003) 采用高频数据对股市波动率做了广泛的讨论,并采用已实现波动率研究了中国股市波动率的不对称性和长期记忆性。常宁和徐国祥 (2004) 概述了金融高频数据的概念、特征以及研究现状和问题。房振明等 (2004) 以5分钟为取样间隔采集上海股票市场实时交易数据,实证得到上海股票市场波动性的日内周期特征和长记忆特征。

最近国内关于高频数据的研究主要有:来升强等 (2010) 针对粗集分类方法因离散化而损失数值型变量提供的高质量信息,提出一种基于Bayes概率边界域的粗集分类方法,并将其应用于高频数据。然而该文只是把高频数据作为方法的验证,并没有正面讨论高频数据。徐国祥和金登贵 (2007) 通过衡量残差密度函数的参数和非参数估计值之间的紧密程度对ACD模型的设定进行了检验。唐勇和张世英 (2006) 研究了针对高频金融时间序列而开发的波动率测量方法——已实现极差波动 (realized range-based volatility, RRV) 的加权形式。韩冬等 (2006) 研究了流动性的“周内效应”和“日内效应”,并且发现,当控制波动性、交易量和股价等对流动性有重要影响的变量时,效应依然存在。凌士勤等 (2005)提出基于高频数据的分类信息混合分布GRACH模型。在文献整理过程中我们还查找到,张波在微结构和风险测量方面专门成立了课题组进行研究,如《基于高频数据的中国金融市场微观结构研究》( 教育部人文社科重点研究基地重大项目,2008—2010)、《基于高频数据的股市极端风险测度及其防范研究》(国家自然科学基金,2011—2013)、《基于高频和超高维数据的中国金融市场若干重大问题研究》( 中国人民大学重大项目,2010—2012) 等。在中国人民大学第四届国际统计论坛暨第五届统计科学前沿国际研讨会综述里我们阅读到,毕涛 (2010) 利用方差比检验来研究中国股市指数高频收益率序列的日内序列相关性,并据此验证了中国股票市场不服从弱式有效市场假说。李莹莹 (2010) 采用高频数据研究了资产组合选择问题中高维波动率矩阵的估计问题。