第二节 基本模型
一 分位数和最优化
定义设Y是一个连续型一元随机变量,其分布函数为FY(y)=P(Y≤y),那么对任意的,分位数定义为:
当=1/2时,即为中位数。
根据分位数的含义能清楚了解随机变量 Y的数值分布情况,即在变量Y的所有取值中,在分位数之下的取值所占比例为,同时在分位数之上的取值所占比例为1 -。
分位数可视为最小化问题的解,为理解分位数与最小化之间的关系,我们首先考虑Y的均值μ与最小化的关系。
假设我们通过平方差(Y-μ)2 来测量 Y的某一点与均值μ的距离,然后通过其期望值E [(Y-μ)2]计算 Y与μ的平均距离。容易理解,当随机变量 Y的均值 μ=E(Y)时恰好能使均方差E [(Y-μ)2]取得最小值。证明过程如下:
因为式(2 -2)中 Var(Y)是固定的,所以通过最小化第一项[μ-E(Y)]2 可使均方差E [(Y-μ)2]取得最小值,显然当μ=E(Y)时,可使第一项等于0,同时使式(2 -2)取得最小值。
接下来我们考虑随机变量 Y的中位数 m。假设根据绝对距离来度量 Y的某一点与 m的离差,并且通过平均绝对距离来衡量随机变量 Y与m的平均偏离程度。同样在最小化的情况下,求m的值。为了简单起见,我们假设随机变量Y为连续型随机变量,其概率密度函数为f(y)。那么
为了求解使取得最小化的m值,可用式(2 -3)对m求导,并通过导数等于零求解m的值。式(2 -3)中第一项对m求导如下:
而第二项对m求导如下:
合并上面两部分,则有:
令2F(m)-1 =0,我们得到F(m)=1/2,即当m是 Y的中位数时,可满足的最小化要求。
最后,我们考虑随机变量 Y的分位数。对于任意的(0, 1),随机变量Y到分位数的距离用加权绝对距离来测量,根据 Y是位于的左边还是右边赋予不同的权重。将 Y到分位数的加权绝对距离定义为:
我们要寻找可以使绝对距离的均值E[D(Y,q)]达到最小的 q值,可以证明,当q 是第分位数时,可使 E[D(Y,q)]取得最小值。证明如下:
为了求解使式(2 -5)最小化的q值,可用式(2 -5)关于q求微分,并令其为0,因此有:
显然当q满足F(q)- =0 时,可以使式(2 -5)最小化,因此,满足{q:F(q)= }的任一元素都可使式(2 -5)最小。如果解是唯一的,那么;如果没有唯一解,那么可以得到一个“分位数区间”,选择其中最小的元素作为 q的值即可,此时分位数函数依然满足单调不减性。
若记损失函数为如下分段线性函数:
其中,I(·)代表指示函数,当括号里的不等式成立时取 1,否则取0。那么
通过上述关于最优化的描述可知,当q是第分位数时,能使 (Y-q)]取得最小值。
二 分位数回归模型
当变量y是关于变量x的函数时,将单变量情形下分位数的求解方法推广到线性回归模型,即可得到基本的线性分位数回归模型。以两变量回归为例,设线性均值回归模型为:
对于模型中未知参数的估计常用最小二乘法,即通过下式求解参数β:
与这一线性均值回归模型对应的分位数回归模型可以表示为:
其中,。定义为分位点处的样本条件分位数函数,假设待估参数的取值随分位点变化,也就是说当分位点值改变,分位数函数具体形式也随之改变。如前所述,当q是第分位数时,可使加权绝对距离的期望 取得最小值。因此,实现对如下加权绝对距离之和的最小化问题的求解,便可得出参数在分位点处的估计值:
式(2 -6)可进一步写为:
其中可以取(0,1)之间的任意值,为待估系数,其值随着的变化而变化。从几何上来看,位于回归直线 之下的数据占全体数据的比例为,而位于回归直线上方的数据比例为(1 -)。在估计第分位点处回归方程的系数时,位于回归直线以下的观察值赋以权重(1 -),位于回归直线以上的观察值赋以权重。通过设定在(0,1)之间的不同取值,可以得到不同的回归直线,既可以通过特定的回归直线得到局部区域的数据信息,又可以结合所有回归直线获取所有数据的整体变量关系。
三 分位数回归的参数估计
设有线性分位数回归模型:
系数可以通过求解如下最小化问题得出,
上式可转化为一个等价的线性规划,对于这一问题的估计方法目前常用的有三种:单纯形算法、内点算法和平滑算法(陈建宝、丁军军,2008)。
(1)单纯形算法
单纯形算法的求解思路是在可行域中,将其中一个基本可行解转移到下一个新的可行解,同时要使目标函数的结果得以改进,如此反复迭代直至目标函数取得最优值为止。Koenker和Orey(1993)把求解最优化问题的单纯形算法应用于分位数回归中,通过此方法求解得到的结果稳定性较强,但在对大规模数据进行计算时,这一方法的计算速度会明显降低。
(2)内点算法
Karmarkar(1984)构造了用于求解线性规划问题的内点算法,该算法在计算过程中用到的每个迭代点都在可行域的内部。这一算法是多项式时间算法,具有较好的理论性质,大量数值研究表明,内点算法在处理大型数据时的运算速度远快于单纯形算法。但是当自变量数目比较多时,内点算法由于每一步迭代过程都要进行因式分解,其运算效率会有所下降。
(3)平滑算法
平滑算法的求解原理是通过平滑函数来逼近目标函数,计算过程中牛顿—拉尔夫方法可以多次重复使用,经过有限步迭代即可求得未知参数的值。单纯形算法和内点算法均有各自的优点和不足,与前两种方法相比,有限平滑算法既可以兼顾运算精度又可以提高运算速度。
四 分位数回归的置信区间和参数检验
(一)置信区间
分位数回归中参数估计量置信区间的计算方法大致可分为两类,下面分别加以介绍。
1.直接估计法(Direct Estimation Method)
Koenker和Bassett(1978)证明了在误差项满足独立同分布的假定下,分位数回归系数是渐进正态的:
其中。利用估计量的这一渐近正态分布特征,能够计算出系数估计量的置信区间。
2.自举法(Bootstrap Method)
Koenker和Zhao(1994)提出Bootstrap算法,又称为重复抽样法。通过有放回抽样得到自举样本,对于第m个自举样本,计算。重复大数M(50—200)次抽样,计算 M个,并将其视为从抽样分布中抽取出来的,计算 的标准差并用它估计我们需要的标准差。自举法的优点在于不需要误差独立同分布的假设,因此这种方法更加稳健和实用。
(二)参数检验
设有分位数回归模型为:
假设其中误差项独立同分布。可以通过Wald检验来验证系数是否显著不为零或者验证不同分位数下的系数是否相等。
对于原假设,常用的检验统计量为:
其中的协方差估计量。
对于原假设,常用的检验统计量为:
其中,是的估计方差,可由下式近似替代:
统计量T1和T2在原假设下都服从χ2 分布,据此可以检验系数估计量是否显著。
此外,Koenker和Machado(1999)借鉴均值模型中拟合优度的计算方法,提出了类似R2统计量。记
其中为样本y1,y2,…,yn的第分位数。这样,拟合优度可以定义为:
的取值介于0和1之间,其值越大表示估计结果对原始数据的拟合精度越高。