统计学视角下的金融高频数据挖掘理论与方法研究
上QQ阅读APP看书,第一时间看更新

第三节 典型统计特征

一 基本描述

为对金融高频数据的基本统计特征做一个简单的描述,选取研究样本为上证价格指数与深圳价格指数2005年2月21日到2006年1月6日,抽样间隔为5分钟的金融高频数据,图2-10和图2-11是价格和收益率随时间变化的图像,其中,价格变动趋势相似,收益率相关系数为0.8644。特别是,收益率皆围绕零值震荡 (标准差分别为0.0017和0.0016),说明存在序列负相关,且从振幅频繁地出现大起大落可以推知对数价格序列含有跳跃成分,这在概率分布中表现为典型的厚尾特征,然而经过已实现波动率调整之后,其核密度估计趋向于近似正态分布。

二 经验特征

这里只考察了日历效应、收益率分布以及离散价格等特征,关于日内行为结构和随机交易间隔的分析,我们将在后文详细展开。

图2-10 价格变动情况,上海 (左) 深圳 (右)

图2-11 收益率变动情况,上海 (左) 深圳 (右)

(一) 日历效应

早期的金融高频数据研究主要是对日内模式的考察,如日内交易价格、交易量、交易间隔、收益率、波动率、买卖价差等变量往往都会表现出典型的U形日历效应 (Diurnal Pattern; Daily Periodic),即投资者在开闭市比中间交易时段更活跃。这里我们考察了平均日内价格和平均已实现波动率,发现上证指数的平均日内价格近似呈U形,其平均已实现波动率则更像L形,这种行为上的不一致,暂时我们还没有办法给出一个恰当一致的解释;而深圳价格指数的平均日内价格和平均已实现波动率的特征是一致的,皆自高至低缓慢下降,反映了投资者活跃程度逐渐下降的行为特征。图2-13显示,平均日内收益率基本围绕零值上下波动,表现出均值回复 (mean reverting),且一阶负相关明显,而已实现波动率调整前后的差别仅仅是尺度上的。

屈文洲和吴世农 (2002) 的研究发现,中国股票市场的买卖价差也呈现出L形的日内变动模式,不同于国外成熟市场如纽约股市交易所的U形日内变动模式,并将有违于国外成熟市场日内变动形态的原因解释为报价驱动机制 (Quote-driven) 与指令驱动机制 (Order-driven) 的差异目前的市场交易机制主要有两大类:(1) 报价驱动机制 (Quote-driven),或称做市商交易制度;(2) 指令驱动机制 (Order-driven),或称委托驱动制度,或竞价交易制度。详见第八章。

(二) 收益率尖峰厚尾及RV调整后的近似正态性

i (t) 视角”下,如图2-14所示,高频收益率的分布仍然表现出典型的尖峰厚尾,但经过已实现波动率 (标准差) 调整 (标准化) 之后,其核密度估计显然已近似正态分布,见图2-15。图2-16是平均日内已实现波动率。

图2-12 平均日内价格,上证 (左),深证 (右)

图2-13 上证平均日内收益率(左)与经过已实现波动率调整的平均日内收益率(右)

图2-14 收益率核密度估计,上海 (左),深圳 (右)

注:核函数取Epanechnikov,窗宽取零。

图2-15 收益率经过已实现波动率(标准差)调整的核密度估计,上海(左),深圳(右)

注:核函数取Epanechnikov,窗宽取0.2,虚线所示为正态分布。

图2-16 平均日内已实现波动率,上证 (左),深证 (右)

(三) 离散价格,价格惰性与同时交易

诚如前文所指,价格离散波动是因为价格变动只能是最小单位(tick) 的整数倍,而且随着取样频率增加,跳成分越来越明显。另外,价格也存在惰性 (很小的时间区间内价格维持不变),如图2-2所示;从宏观的角度来讲,涨跌停和熔断机制也限制了价格的日内最大波动幅度,所以价格波动幅度一般不会太大。事实上,由表2-7可看出,考虑邻近两次交易,分别记上涨、不变和下降为+、0、-,不难发现,连续上涨与下降只占很小的比例 (441/59837=0.74%; 410/59837=0.69%),而维持价格不变的比例相对是最大的 (29779/59837=49.77%),即交易价格在日内的变动显著小。图2-17显示,60%以上的交易未有价格变动,且正负变动大致对称,同时也注意到,价格呈离散变动。此外,高频数据还存在同时交易问题 (multiple transaction),即一个记录时点上有多笔交易。如果这多笔交易的价格不变,就基本上没有什么问题,但如果同一时点上的多笔交易价格有变,一种直接的处理方法是,在出现同时交易的时刻统一取平均或最大 (小) 值或随机选取一点。显然离散价格、价格惰性和同时交易等问题增加了日内价格波动建模的困难。

表2-7 IBM股价变动 (1990年11月1日—1991年1月31日)

资料来源:TSay (2010)。

图2-17 2011年6月10日中国某股票逐笔交易记录的价格变动统计

(四) 偏好整数交易量

从交易量 (trade size) 的直方图来看,JPM的交易量离散且明显集中于整数 (round lots),这样建模就需要考虑离散分布;而MSFT和DTEK的交易量分布更分散一些 (dispersed),但是仍集中于整数 (整数上面的概率大),特别是DTEK,5的整数倍更受青睐,这反映了交易者是偏好整数交易量的。

图2-18 交易量直方图 (逐笔交易数据)

资料来源:Hautsch (2012)。

图2-19 2011年6月10日中国某股票逐笔交易记录的交易量统计

三 理论特征

(一) 波动率无须用均值矫正

回顾前文我们曾区分过的两类时间标尺:

(1) 钟表时间 (calendar time scale): 1,2,3, …,等间隔 (外生变量);

(2) 交易时间 (tick-by-tick time scale): t1, t2, t3, ……随机间隔 (内生变量)。

现设ptt时刻的交易价格,其中,t可以是钟表时间也可以是交易时间;pt可以是真实价格但更多时候采用对数价格,因为对数价格的差分或增量即为收益率,且收益率的方差随时间变化小于价格 (若假定对数价格服从布朗运动,则其增量是平稳的),同时作为一个相对量也消除了量纲的影响。下面我们从通常的低频等间隔数据建模来讨论pt的动态。

设观测价格,其中,微结构噪声ζtiid (0, c2), Pt是有效价格。注意,我们通常是对有效价格的对数pt=lnPt进行建模,比如,若pt遵循带飘移项的随机游走 (Random Walk),即pt=pt-1+μ+εt,其中,飘移项μ可以解释为预期收益率 (或收益率的均值),扰动项εtiid(0, σ2)。显然,pt非平稳,但差分 (收益率) 平稳,Δpt=μ+εt。飘移项在高频数据分析中通常可以略去,这是因为:

注3:对扰动项更强的假定是εt~iidN(0, σ2);更弱的假定依次有:(1) 鞅差分序列εt~mds (0, σ2),其中,E(εtt-1, εt-2, …) =E( εt|It-1) =0, Var( εtt-1, εt-2…) =Var( εt|It-1) =σ2,此时pt是鞅 (Martingale); (2) 白噪声εt~id(0, σ2),其中,E(εt) =0, Var(εt) =σ2,当t≠s时,Cov(εt, εs),此时pt是单位根过程 (Unit Root Process)。也就是说,随机游走是鞅,更是单位根过程,但反之不成立。

pt=pt-1+μ+εt,其中,εtiid(0, σ2), pt是对数价格,t是钟表时间“天”,于是

故,年收益率的均值和方差分别为:E (p365- p0) = 365μ, Var (p365-p0) =365σ2

若设预期年收益率 μ=365μ =10%,相应的方差=365σ2=0.252,则预期日收益率μ==0.0274%,相应的方差σ2=

现在,如果我们用一个样本容量为365天的样本去估计预期的日收益率,则,。当取0.0274%时 (无偏),相应的标准差为=0.000685。而当取0时 (有偏),相应的标准差为0.000274,即估计误差相对很小。所以,通常略去飘移项实际上是基于有偏估计的逻辑。

舍去飘移项的另一个原因是,Merton (1980) 的研究发现,样本取样频率越高,越有助于估计二阶矩,但无助于估计一阶矩。“无助于估计一阶矩”我们已经看到了一个实例,下面以已实现波动率为例,对“有助于估计二阶矩”做一些说明。不妨设第i个交易日的第t个观测值为pi, t =lnPi, t,其中i=1,2…, n, t=1,2…, m,第i-1个交易日与第i个交易日之间的间隔是24小时 (钟表时间),这里为了简化分析不妨假定有效交易时间为4小时 (忽略中间非交易时间),且间隔Δ相等,则,

于是,

,其中(pi, m-pi1)与划分无关。

即,当Δ→0时,收敛于

所以,可以看到,随着取样频率的增加,略去飘移项 (预期收益率均值设定为零) 不仅仅是出于简化计算的需要。但是注意,随着频率增加,受微结构噪声干扰,有些二阶矩并不收敛,而是发散的。比如已实现波动率、协同波动率。

下面让我们从更一般的连续时间金融来讨论pt的动态。从观测价格中排除微结构噪声得到有效价格,如果Pt=P (t) 是连续的,且服从几何布朗运动:

dPt=μPtdt+σPtdWt,其中,Wt是标准布朗运动dWtN (0, dt)

那么在无套利假定下根据伊藤引理有:

注意到,=Ο (dt), σdWt=, =0,所以,在高频数据中,随着取样频率增加,均值趋势项可以略去,于是高频数据分析的主要部分就集中在波动项,即,dpt=σdWt

(二) 微观结构噪声的凸显

随着频率的增加,微结构噪声带来的干扰变得越来越突出,有些二阶矩不再收敛,而是发散的,比如前文提到的已实现波动率。为此,Zhang等 (2005) 提出了双尺度已实现波动率 (Two Scale Realized Volatility, TSRV), Zhang (2006) 进一步提出了多尺度已实现波动率 (multi-scale realized volatility, MSRV),大大改进了TSRV估计的无偏性和一致性,同时较好地处理了边界点问题。同时,微结构噪声还导致日内收益率一阶负相关这里是考虑符号的,即带符号的价格变动倾向于一阶负相关;而价格绝对变动则倾向于拖尾正相关。和方差高估。事实上,如果不存在微结构噪声,取样频率越高则精确度越高,然而在微结构噪声存在的条件下,则不得不讨论最优取样间隔的权衡 (等间隔数据)。

仍然设观测到的价格非有效价格,而是含有微结构噪声,即,其中i=1,2…, n, t=1,2…, m, pi, t =lnPi, t,微结构噪声ζi, t ~iid (0, c2)。

t两端微分,并将其代入dpt=σdWt得:

,其中,ζi, t与Wi, t相互独立。

进而不难得到:

这意味着含有微结构噪声时,日内收益率一阶自相关系数为负,日内收益率的方差是高估的;并且高频数据 (微结构噪声突出) 比低频数据更为显著。对于超高频数据,其交易间隔随机且不等,记为 Δi,于是的方差协方差矩阵为:

易得一阶自相关系数仍然是负的。综上,微结构噪声导致高频数据日内收益率一阶负相关、方差高估;并且随着取样频率增加 (微结构噪声突出) 尤为显著。在交易间隔分析那一章,我们对此有一个简单的实证。

,可见,当取样间隔Δ很小时,日内收益率的方差将有很大比例来自微结构噪声。换句话说,在日内收益率的方差中,微结构噪声的贡献。所以,当存在微结构噪声时,并非取样频率越高就越精确 (即取样间隔Δ并不是越小越好)。极端地,当取样间隔趋于零时,波动测度的完全是微结构噪声 (microstructure noise) 如买卖价差 (the bid-ask spread; the bid-ask bounce)、离散价格 (price discreteness)、闭市效应 (market closing effects)、异步交易 (asynchronous trading)、非频繁交易 (infrequent trading) 等。。因此,需要在偏倚和波动性之间权衡。令φ=Var (dpi, t), ,则最优取样间隔Δ是最小化下式的解:

即,,若不存在微结构噪声。

多数研究针对特定的样本数据计算得到最优频率一般是5分钟,本书也采用这一通用做法,取5分钟间隔。事实上,最小交易间隔还受到交易机制和不同国家 (地区) 政策性的限制,比如NASDAQ就曾将部分成交比较活跃的股票改成5分钟竞价制;我国香港的指数期货交易要求,除标的指数水平发生变化外,做市商报价至少显示10秒钟。

对于最优取样间隔,我们的建议是:其一,可能不必算出具体的数值(因复杂而得不偿失),而是找到一个与样本量的关系式即可,如非参估计的窗宽。其二,考虑采用多尺度或混频的思路,其中,多尺度 (multi-time scale) 请参见Zhang等 (2005) 和Zhang (2006);混频回归 (Mixed Data Sampling regression models, MIDAS) 请参见Ghysels等 (2005; 2006)。其三,通常监测的频率不必太高,然后每个点附近设置一个动态的匡,当某点跳出时,则加密取样 (同时要注意控制微结构噪声),以检验是否为系统性偏离,但问题是这个动态匡怎么设置?而且,若要检验一天的变动(曲线/函数数据) 是否存在系统性偏离,那么自然要给出一个正常的标准或定义何为正常?这其实是很困难的。比如,在欲买入者看来,下跌越多越是正常;而在欲卖出者看来,上升越多越是正常;监管者关注的则是是否存在大起大落的波动。

(三) 跳跃成分的凸显

事实上,从更细的尺度上来看,真实的价格序列并不是完全连续的——扩散模型很难去刻画到那些未预期到的变动 (风险),特别是高频数据所表现出来的离散特征,所以更一般的情形是附加跳跃成分 (离散)的连续模型。其中,连续部分 (边际变动) 可以由Wiener过程 (标准几何布朗运动) 驱动;跳部分 (边际变动以外的部分) 由Poisson过程驱动。Merton (1976) 也曾指出,Black -Scholes方程的一个关键假定是,交易在时间上是连续的,且价格动态以概率1存在一个连续的样本路径。所以本质上来讲,B-S方程的有效性要看股票价格的变动是否满足局域Markov性 (在很小的时间区间,股价只有很小的变动)。与之截然相反的是,可以容许在任意小的时间区间有极大的价格变动,即所谓的“跳过程”(jump process),它反映了一些重要信息 (离散到达,iid)。直观地(prima facie),我们也可以把众多的离群值 (outliers) ——分布的尾部(过大或过小的收益率) ——看做是跳的来源。

从分布来看,真实数据 (含有跳) 的尾部更厚,即所谓的“尖峰厚尾”,它确认了跳跃成分的存在。特别是随着取样频率增加,“尖峰厚尾”特征愈加明显。诚然,有些连续扩散模型 (diffusion model) 确也可以刻画到厚尾特征,但很难捕捉背后的跳跃成分。事实上,从布朗运动与真实数据的比较也可以看出为什么要包含跳:布朗运动的重要特征是,(1) 样本路径是连续的 (continuity); (2) 尺度不变 (scale invariance,类似分形的自相似)。而真实的对数价格行为并不是完全连续的,而且尺度越细,跳跃成分越明显。所以只有粗粒化 (coarse graining) 的真实数据才近似布朗运动,随着取样频率增加,用布朗运动来建模显然是不合适的。

含有跳成分的B - S方程:,其中,dp (t)、μσλdW (t) 同前所设,与W (t) 独立的N (t) 是Poisson过程,,其中Y-1是Poisson事件发生时价格变动的百分比S (t+h) =S (t) Y

一种更简洁的形式是:dpt=μdt +σdWt+JtdNt,其中,N (t) ~P (λ),跳的大小JtN (β, ν),该随机微分方程式的解为:

,其中,NJ是截至时间t累积的总跳跃数。

这时候pt总的二次变差为: