因子投资:方法与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.5 多因子模型比较

2.2.5节提到,所有的多因子模型都是“不完美”的。而这句话的后半句是有些多因子模型是“有用”的。如果一个模型中的因子都有可靠的经济学或金融学依据,代表了某种风险[1],且该多因子模型能够解释大量资产的预期收益,那么该模型就是有用的。然而从不同的逻辑出发,人们总能提出不同的因子,并用它们组合出不同的多因子模型。对于不同的多因子模型,应该如何进行比较呢?有哪些统计学方法能帮人们做出科学的判断呢?介绍比较多因子模型的方法就是本节的内容。

要比较多因子模型,可以本着“两个目标、两个切入点、多种方法”这条逻辑主线进行。先看两个目标。Barillas and Shanken(2017)指出,评价一个多因子模型要看它能否解释用来检验该模型的资产(英文为test assets,本书将其译为测试资产)以及该模型能否解释其他模型的因子。因此,比较不同多因子模型对同一组测试资产的解释程度就是第一个目标;而不同多因子模型两两相互检验能否解释他人的因子就是第二个目标。再来看两个切入点。无论是解释测试资产还是其他因子,被解释的资产往往都是多个。当评价一个多因子模型时,联合检验多个资产定价误差是否为零就是第一种切入点;而单独考察这些资产的定价误差是否为零则是另一种切入点。无论采取哪种切入点,都有具体的方法进行检验。如果目标是联合检验定价误差,则可以使用GRS检验以及均值—方差张成(mean-variancespanning)检验;如果目标是把定价误差独立看待,则可以使用α检验。

比较多因子模型的核心是从某个切入点出发,选择适当的统计方法。一旦有了方法,它就既可以被用来检验测试资产,也可以被用来进行不同模型包含的因子的相互检验。换句话说,不管是用测试资产还是用其他模型的因子当被解释变量,对于统计方法本身是没有太大差异的。因此,下文将以不同切入点介绍不同的检验方法。在实证资产定价的研究中,来自这两个切入点的不同方法经常被同时使用,其目的是让模型之间孰优孰劣的结论更加可靠。接下来的2.5.1节和2.5.2节两节首先分别介绍GRS和均值—方差张成检验,它们都是联合检验定价误差的方法。这两种方法的检验统计量(test statistic)的表达式差异并不大,而且背后也有着千丝万缕的联系,2.5.3节将从几何的角度解释它们的差异。2.5.4节将会介绍α检验,它也是非常流行的一种检验方法,但与前面两种方法不同,它并不是把所有定价误差联合看待,而是独立看待。最后,2.5.5节简要介绍贝叶斯方法。

2.5.1 GRS检验

GRS检验由Michael Gibbons、Stephen Ross以及Jay Shanken提出,并由此得名。在2.2.1节介绍多因子模型的时序回归检验时已经对该方法进行了介绍,并给出了检验统计量。假设有N个用于检验的资产,并假设待检验的多因子模型中有K个因子。令=表示全部N个资产的定价误差向量,表示tN个资产无法被该多因子模型解释的残差向量,表示tK个因子的收益率向量,则根据(2.16)可知GRS统计量为:

GRS检验有两个吸引人的优点。首先,它的F-统计量是有限样本(finite sample)下的统计量,即GRS检验给出了给定样本大小T下这些定价误差应满足的联合分布,该检验是高度精确的。当样本量趋于无穷的时候,的联合分布渐进趋于χ2分布,但在有限样本下使用χ2分布并不可靠,这就凸显了GRS检验的价值。其次,GRS检验有非常高的检验效力。当然,任何事物都有两面。GRS统计量的精确性高度依赖正态分布假设。在现实中,该假设可能过于严格而无法满足,这会降低GRS检验在实践中的吸引力。另外,GRS检验要求样本数T大于资产个数N。这意味着当用来检验的资产个数很大时,需要使用更长窗口的历史数据来计算GRS统计量。

尽管以上种种,时至今日,GRS检验仍被学术界广泛使用。比如Liu et al.(2019)使用GRS检验比较了他们提出的中国版三因子模型和Fama and French(1993)三因子模型在A股市场上的效果。在GRS检验中,将这两个模型之间的因子互为解释和被解释变量。结果显示,中国版三因子模型能够解释Fama and French(1993)中的因子,而Fama and French(1993)三因子模型无法解释中国版三因子,因此中国版三因子模型更适用于A股市场[2]

借助计算机的运算能力,人们可以根据式(2.16)式很容易地求出GRS统计量。但是这个看上去复杂的数学公式对理解该检验背后的本质似乎没有太大帮助。好消息是,GRS统计量还有另外一种形式:

式中,表示由全部N个资产和K个因子构成的某个事后(ex post)最大夏普比率投资组合的夏普比率;表示由全部K个因子构成的某个事后最大夏普比率投资组合的夏普比率。因此,GRS统计量可以直观地理解为:在K个因子之外加入N个资产之后,能够获得的最大夏普比率是否显著高于仅由K个因子实现的最大夏普比率,如果夏普比率显著提高,那么该因子模型就不能解释这N个资产。注意,即便原假设被拒绝,也仅能说这N个资产作为一个整体无法被该多因子模型解释,但却无法知道具体哪个或哪几个资产发挥了作用,这是因为GRS检验是联合检验。2.5.3节将从式(2.68)引出GRS统计量的几何解释。

2.5.2 均值—方差张成检验

Huberman and Kandel(1987)提出的均值—方差张成(mean–variance spanning)检验是另一种常见的联合检验手段。从名字就不难看出来,这种方法和Markowitz(1952)提出的现代投资组合理论(Modern Portfolio Theory)以及均值—方差分析有着紧密的联系。Kan and Zhou(2012)对均值—方差张成检验进行了系统而全面的介绍。

这种方法的核心无疑是“张成(spanning)”两个字。假如市场中有K个因子投资组合;通过按各种不同的权重配置它们又能得到许多新的组合。对于每个给定的预期收益率,都能找到这K个资产的唯一一种配置权重,使得该组合是所有预期收益率等于的组合中方差最低的,这个特殊的投资组合就是预期收益率为的最小方差组合。把不同的最小方差组合都绘制在横坐标为标准差、纵坐标为预期收益的二维平面内,就得到了最小方差前沿(minimum–variance frontier),它的形状是一个抛物线,如图2.8所示。

图2.8 最小方差前沿

图2.8中的最小方差前沿就是由这K个因子张成的(spanned),这就是这种方法得名的原因。而这种检验所关注的问题是,加入N个新的(来检验该模型的)资产后,这全部N+K个资产张成的新的最小方差前沿能否“优于”仅由K个因子张成的最小方差前沿。这里,“优于”意味着对于每一个给定的N+K个资产张成的前沿上的点都比K个因子张成的前沿上的点有更低的方差,这就是均值—方差张成检验的直观解释。

下面来看看数学上的这种检验的原假设是什么。令代表tN+K个资产的收益率向量,其中R1tR2t分别为K个因子和N个资产的收益率向量。接下来,定义这N+K个资产的预期收益率和收益率的协方差矩阵:

由多因子模型可知:

R2t=α+βR1t+εt (2.70)

利用µV可以求出α=µ2-βµ1以及。接下来,定义δ=1N-β1K(其中1N和1K分别为NK阶元素全是1的向量)。由此,Huberman and Kandel(1987)给出了均值—方差张成检验的原假设的充要条件:

H0:α=0N, δ=0N (2.71)

式中,0N表示N维零向量。当原假设式(2.71)成立时,对于任何一个用来检验的资产(或这些资产的组合),总能使用原始的K个因子来构建一个投资组合,并使得该投资组合的预期收益率和测试资产的预期收益率相同,但方差更低。其中前者由α=0Nδ=0N(即β1K=1N)保证;而后者由式(2.70)中R1tεt不相关,且var(εt)>0保证。这两条关于预期收益率和方差的性质说明,这N个资产无法在K的基础上张成更优的最小方差前沿,因此可以接受原假设。

除了上述数学含义外,从由全部N+K个资产张成的最小方差前沿上也能够找到上述原假设的直观解释。Kan and Zhou(2012)指出,在这个最小方差前沿上存在两个特殊的投资组合。其一是全局最小方差组合(global minimum–variance portfolio),其二是从均值—方差二维平面的原点向最小方差前沿做切线的切点。如果原假设成立,则条件δ=0N意味着全局最小方差投资组合中,N个资产的权重都是零,即该组合完全由K个因子构成。类似的,条件α=0N意味着切点投资组合中N个资产的权重都是零,因此该组合同样完全由K个因子构成。换句话说,这两个特殊的投资组合均仅仅由K个因子构成,而N个资产对它们没有任何贡献。另外,在投资组合理论中,有一个重要的定理叫作“两基金分离定理”(two-fund separation theorem)。它的含义是,使用最小方差前沿上的任意两个组合就能构造出整个前沿,即前沿上的其他组合都可以由这两个投资组合的某种线性组合得到(Merton 1972)。根据“两基金分离定理”,如果这两个投资组合中均不包含N个测试资产,那么整个由N+K个资产构成的最小方差前沿上的所有投资组合都不包含这N个资产,这便解释了为什么α=0Nδ=0N是原假设成立的充要条件。

虽然以上直观地解释了均值—方差张成检验要干什么以及它的原假设是什么,但为了进行检验,还是要用到具体的统计检验量的。在这方面,Huberman and Kandel(1987)一文最早提出了似然比(likelihood ratio)检验统计量。而Kan and Zhou(2012)又通过Wald检验和拉格朗日乘数(Lagrange multiplier)检验构建了两个检验统计量。这三个检验统计量在大样本下都渐进满足自由度为2Nχ2分布。

这三个统计量的表达式十分接近,且均和两个重要参数s1s2有关。关于这两个参数,Kan and Zhou(2012)给出了一个非常直观的经济学解释。为了介绍它,首先需要一些铺垫。考虑图2.9所示的均值—方差平面中由K个因子张成的最小方差前沿。在纵轴上取(0, r)点并从它向最小方差前沿做切线,找到切点组合。定义:

它表示这条切线的斜率。由于不同的(0, r)点会产生不同的切线,因此r的函数。当r等于无风险利率Rf时,恰恰就是从(0, Rf)出发得到的切点组合的夏普比率(Sharpe 1966a)。

当把N个资产加入后,使用全部N+K个资产张成最小方差前沿并按类似式(2.72)的方式定义便可得到s1s2的表达式:

最后,通过s1s2求出似然比检验、Wald检验以及拉格朗日乘数检验的统计量(分别记为LRWLM):

这三种检验的统计量虽然略有差异,但它们都是以某种形式将s1s2“加”起来作为一个综合的分数来检验原假设的。由s1s2的定义可知,人们实际上是在均值—方差平面的纵轴上搜寻两个特殊的r。对于第一个r,由KN+K个资产张成的最小方差前沿上的相应的两个切点的值差异最大;对于第二个r,由KN+K个资产张成的最小方差前沿上的相应的两个切点的值差异最小。这三种统计量以这两个特殊r下两个前沿的综合差异来检验它们是否在统计上有所不同,一旦结果显示统计上并无显著不同,就接受原假设。以上是大样本下三种均值—方差张成检验的统计量。当样本量T较资产数N+K不足够大时,使用上述统计量并不准确,更好的方法是像GRS检验一样计算有限样本下的统计量。从数学上推导有限样本下统计量的表达式十分烦琐,且超出了本书的范畴。好消息是,Kan and Zhou(2012)给出了这些统计量的几何解释,2.5.3节将对其进行介绍。

关于均值—方差张成检验的应用,一个很有代表性的例子是Han et al.(2016)。三位作者针对美股提出了一个趋势因子,它不同于传统的动量或反转,而是将不同时间尺度下收益率的动量和反转现象综合到一起,构建了一个综合的趋势因子。该文使用新的趋势因子作为测试资产,用传统的短期反转、中期动量以及长期反转因子作为解释变量,通过均值—方差张成检验进行了分析。结果显示,这三个因子无法解释新的趋势因子,即加入新的趋势因子后,最小方差前沿将会得到显著提升。

2.5.3 从几何角度比较GRS和均值—方差张成

对比式(2.75)~式(2.77)中的统计量(并代入s1s2的定义)和式(2.68)中GRS检验的统计量,能够发现这些表达式中都有。只不过GRS检验中的默认的是用无风险收益率Rf计算的夏普比率,而均值—方差张成检验中的使用一般的r计算,这意味着它们之间注定有一些关联。

不严格地说,无论是GRS检验还是均值—方差张成检验都是为了检验新增加的N个资产能否在原始的K个因子上提高投资组合的风险收益的特征的。如果答案是肯定的,那么就拒绝原假设,即这N个资产联合起来无法被K个因子解释。既然是为了同一个目标,那么它们之间又有什么差异呢?最直观的说明无异于使用几何方法解释它们的含义,这就是本节的重点。从现代投资组合理论中的有效前沿(efficient frontier)说起。

首先假设市场中存在无风险收益率Rf,且人们能够没有任何限制地按照Rf来借贷。在这种情况下,现代投资组合理论指出有效前沿是图中经过(0, Rf)和切点组合的直线(图2.10(a))。无论一个人能容忍的最大风险(即)是什么,都应该通过无风险资产和切点组合(tangency portfolio)的某种线性组合实现最优选择,因为这条线的斜率最高,意味着有效前沿上任何点的夏普比率都最高。

GRS检验假设市场中存在无风险收益率Rf,且可以无约束借贷。回顾一下式(2.68)不难发现,GRS检验关注的核心是在加入N个资产之后,使用全部N+K个资产得到的切点组合能否比仅仅使用K个因子得到的切点组合有更高的夏普比率。除切点组合外,GRS检验不关心最小方差前沿上的其他点。图2.11进一步说明了这一点。

图2.10 有效前沿

图2.11 GRS检验的几何解释

为了方便解释,图2.11中的纵坐标采取了相对Rf的超额收益。如果被检验的多因子模型无法解释N个资产,那么在加入N个资产后能够显著提升切点组合的夏普比率。在图2.11中,从横坐标上的点出发做一条竖直线,它和两条切线分别相交于AB两点。由夏普比率定义可知,AB两点的纵坐标恰恰就分别等于。由此可知,分别为线段OAOB的长度。回顾一下GRS统计量式(2.68),它正是由之比计算的。因此GRS检验的几何意义就是考察线段OB的长度是否显著大于线段OA的长度。

接下来看看均值—方差张成检验的几何含义。作为回顾,前面2.5.2节介绍了三种统计量,并指出这些统计量是大样本下的渐进性质。本节的几何解释则给出了这些统计量在有限样本中的含义。前面的介绍已经指出,GRS检验假设市场中存在无风险收益率Rf,以及可以按Rf无约束借贷,因此它仅关注切点组合。与GRS检验不同,均值—方差张成检验并不假设Rf的存在,因此适应更广泛的情况。

当不存在无风险收益率Rf时,有效前沿由最小方差前沿的上半部分组成(图2.10(b))。因此,为了比较K个因子张成的前沿和全部N+K个资产张成的最小方差前沿,仅仅比较切点组合是不够的——事实上,因为不存在Rf,因此也没有传统意义上的切点组合。这种情况的解决之道是,从两个最小方差前沿上找到两个特殊的点进行比较,这正是均值—方差张成检验的几何含义。而三种不同检验统计量之间的差异仅仅因为它们各自选择的特殊点不尽相同。

图2.12展示了不同检验统计量用到的关键点。图中gKgN+K分别为由K个因子和全部N+K个资产张成的事后最小方差投资组合,这两个点代表的投资组合的标准差的大小由线段ODOC的长度表示。接下来,以这两个点向纵轴做垂线,找到点A和点B。从点A出发向K个因子的最小方差前沿做切线,切线和直线=1相交于点G,同样从点A出发做N+K个资产的最小方差前沿的渐进线,渐进线和直线=1相交于点H。类似的,以点B为起点,做N+K个资产的最小方差前沿的切线,做K个因子的最小方差前沿的渐进线,它们分别与直线=1相交于点EF。除此之外,图中利用(2.72)的定义给出了线段AGAHBE以及BF的长度。使用上述六个线段就可以解释三种检验统计量的几何意义。

先说似然比检验。在有限样本下,其检验统计量[3]满足F2N,2(T-K-N分布。按照图2.12的几何解释,似然比检验的统计量为:

上式说明LR的大小和两个比值有关。第一个比值是OD/OC,比较两个全局最小方差组合的标准差。由于ODOCK个资产构成的最小方差组合的标准差一定不小于N+K个资产构成的最小方差组合的标准差),因此OD/OC≥1。第二个比值是AH/BF,由于N+K个资产张成的事后最小方差前沿一定“优于”仅由K个因子张成的事后最小方差前沿,因此AH/BF≥1。如果原假设成立,即事前(ex ante)两个前沿一样,那么可以期待OD/OCAH/BF都不会显著地偏离1。如果它们其中之一或者二者全部显著大于1,那么原假设就会被拒绝。

图2.12 均值—方差张成检验的几何解释

对于Wald检验和拉格朗日乘数检验,在有限样本下,它们的统计量并不满足F分布,而是十分复杂的分布。不过,参考式(2.76)和式(2.77),仍然可以写出它们的几何含义:

观察式(2.79)和式(2.80)不难发现,WLM这两个统计量的表达式可以说是“完美对称”的。W中的第一项是(OD/OC2-1,它反映的仍然是两个全局最小方差组合的标准差偏离程度,由于ODOC,因此该项中用(OD/OC2减去1;再看LM,它的第一项是1-(OC/OD2,它和(OD/OC2-1如出一辙,只不过因为分子、分母互换了位置导致(OC/OD2≤1,因此该项中是用1减去(OC/OD2。再看两个统计量中的第二项。W的第二项涉及BEBF,它们都从点B出发,BE是点B到全部N+K个资产的最小方差前沿的切线,BF是点BK个因子的最小方差前沿的渐进线。(BE/BF2-1则衡量了在K个因子的基础上加入N个资产导致切线斜率平方的提升。反观LM的第二项,它包括AGAH,它们都从点A出发,AG是点AK个因子的最小方差前沿的切线、AH是点A到全部N+K个资产的最小方差前沿的渐进线。1-(AG/AH2则衡量了从N+K个资产中去除N个资产(从而仅剩下K个因子)导致切线斜率平方的降低。这种“对称”彰显了几何解释之美、数学之美。

2.5.4 α检验

前文介绍的GRS检验和均值—方差张成检验均是联合检验N个资产的定价误差是否显著偏离零。与它们不同,本节的α检验把每个资产iαi独立看待,检验其是否为零。在得到所有αi的检验结果后,将它们取平均并以此评价多因子模型。

α检验实操起来非常简单。对每个用来检验多因子模型的资产(可以是测试资产或其他模型的因子),将其超额收益作为被解释变量,使用待检验的多因子模型作为解释变量,进行时序回归,估计其定价误差的标准误(计算标准误时通常会采用Newey–West调整)。有了和它的标准误,计算t-值=。在原假设下,多因子模型可以解释这些资产,因此αi=0。在得到全部N个资产的t-值之后,将它们的绝对值取平均作为评价多因子模型的依据。取绝对值的原因是,此处只关心定价误差相对于0的偏离程度,而非其方向。因此,α检验关注的两个评价指标就是的均值以及|t-值|的均值。

α检验在多因子模型的比较中应用非常广泛。最常见的做法是使用同一组测试资产来检验不同的多因子模型,并以上述指标偏离零的程度来评价多因子模型的“好”与“差”。这两个指标越低,说明一个多因子模型越能够解释这些资产,因而是“更好”的模型。在实证资产定价研究中,应用α检验来比较模型的例子数不胜数,Hou et al.(2015)和Fama and French(2020)就是其中的代表。最后值得一提的是,α检验经常和GRS检验同时使用。在本书第4章介绍多因子模型时,也将同时使用这两种检验方法进行实证分析。

2.5.5 贝叶斯方法

由Barillas and Shanken(2018)提出的贝叶斯方法[4]也常被用于多因子模型的比较。该文作者是计量经济学大佬,且又发表于金融学顶刊Journal of Finance,因而备受关注。考察多因子模型:

Σ=cov(εt),如果原假设α=0成立,那么预期收益率就满足E[Re]=βλ。Barillas and Shanken(2018)提出的贝叶斯方法假设多因子模型的参数βΣ满足特定的非正常先验分布(improper prior)[5]。而对于参数α,它在原假设下为零,在备择假设下满足多元正态条件分布fα|β, Σ)=N(0, τΣ)(τ>0是一个参数)。在该方法中,因子收益率和资产收益率为观测到的数据。有了参数和数据,Barillas and Shanken(2018)通过计算边际似然度(marginal likelihood)来比较不同的多因子模型。令D代表数据、Mi代表第i个模型,则边际似然函数为:

由定义可知,边际似然度是在给定模型Mi下,观察到数据D的条件概率。在贝叶斯模型比较中,不同模型的后验概率比与它密切相关。假设两个多因子模型MiMj,则它们的后验概率之比满足:

式中,等号右侧第一项是两个模型先验概率之比;而第二项就是它们的边际似然度之比,它又被称为贝叶斯因子(Bayes factor)。在多因子模型比较中,通常假设两个模型的先验概率一样,因此边际似然度的高低就会最终主宰模型的选择。

上述描述虽然简要,但它就是Barillas and Shanken(2018)一文的核心。利用该方法,Stambaugh and Yuan(2017)比较了他们提出的四因子模型和Fama and French(2015)五因子模型以及Hou et al.(2015)四因子模型。该文是将贝叶斯方法用于多因子模型比较的代表性研究之一。相较于GRS检验或均值—方差张成检验来说,贝叶斯方法在学术界的使用要少一些。这一方面和它被发表的时间较短有关[6],另一方面该方法也存在一些被质疑的地方。

2020年,贝叶斯统计学的大佬Siddhartha Chib同样在Journal of Finance发文对Barillas and Shanken(2018)的方法提出了挑战(Chib et al.2020)[7]。该文直截了当地认为Barillas and Shanken(2018)的方法有误,并给出了改进方法。

Chib et al.(2020)指出上述贝叶斯方法中参数的先验设定存在问题。简单地说,在具体使用时,在参数βΣ所满足的非正常先验分布中需要确定一个常数的取值。而只有当所有待比较的多因子模型满足以下三个性质时,采用边际似然度来挑选模型才是合理的。这三个条件是:(1)不同模型的参数βiΣi(下标i代表模型i)满足同样的非正常先验分布;(2)该分布中的常数对所有模型相同;(3)不同模型的参数空间一样。Chib et al.(2020)进一步指出Barillas and Shanken(2018)的模型并不满足上述三个条件,因此使用(2.82)来比较模型是不正确的。针对上述问题,他们对不同模型的参数βiΣi需满足的先验分布进行了修正,并提出了改进的贝叶斯方法。由于贝叶斯方法尚存疑问,因此本书不再对其做进一步的讨论,感兴趣的读者可参考相关文献。

[1]随着行为金融学的发展,越来越多的学者开始从这个角度提出新的因子,这些因子背后的逻辑往往不是风险补偿,而是错误定价(mispricing)。本书的第6章在介绍因子研究现状的时候会涉及大量行为金融学方面的内容。

[2]第4章会就Liu et al.(2019)提出的中国版三因子模型进行具体的实证分析和探讨。

[3]假设用来检验多因子模型的资产数满足N≥2。当N=1时,统计量的表达式与N≥2时不同。

[4]该方法最早的版本是一篇2015年的研究手稿(working paper),在学术界得到了广泛的传播。不过,该论文的正式版最终于2018年发表于金融学顶刊Journal of Finance。一些使用该方法的论文引用了其早期的版本,并发表于2018年之前。本书在引用参考文献时首选正式发表的版本,故而引用了Barillas and Shanken(2018)这个版本。如果行文中引用了一篇先于该文发表的、却使用了贝叶斯方法的论文,请勿感到诧异。

[5]非正常分布指的是在其参数空间上的积分是无穷大的分布。在贝叶斯统计中,如果后验概率是正常的,那么仍然可以使用非正常先验分布。

[6]将贝叶斯方法应用于资产定价的研究早在20世纪80年代就出现了,见Shanken(1987),Harvey and Zhou(1990)以及McCulloch and Rossi(1991)。

[7]这两篇文章都发表于金融学顶刊Journal of Finance。Barillas and Shanken(2018)一文的题目是Comparing asset pricing models,而Chib et al.(2020)则直接在前文题目之前加了一个On表示评价,即On comparing asset pricing models,可谓“火药味十足”。