3.1 企业区位选择的实证研究进展
3.1.1 主要计量模型和方法
在企业区位选择的实证研究中,离散选择模型(discrete choice model,DCM)和计数数据模型(count data model,CDM)是基本的计量模型,各有其优点和缺点,为了能够深入了解这两类模型的特征,下文将分别介绍其统计特征。
3.1.1.1 离散选择模型(DCM)
企业区位选择的离散选择模型主要包括如下假设(Carlton,1983;Guimaraes et al.,2004):第一,企业n(n=1,…,N)在固定的选项或地点的集合J中选择自己的区位;第二,选择一个特定的位置j=1,…,J,在该位置的企业可获得的利润为∏nj;第三,当且仅当∏nj>∏ni时,企业选择位置j优于位置i;第四,研究者观察不到利润,但利润可以分解成系统的组成部分πnj,其函数为πnj=π(xj,wn),这个函数取决于可选项xj的属性、企业特征wn以及随机组成部分εnj,随机部分的联合密度为f(εn)=f(εn1,εn2,…,εnJ)。在这些假设下,工业区位选择的决定因素可以通过在其他条件不变的情况下,利润的系统组成部分中的因素发生变化对企业n选择位置j的概率Pnj的影响(McFadden,1974)。然而,为了有效地计算出选择概率的边际效应,则需要明确函数π(xj,wn)和f(εn)。
假设π(xj,wn)与参数是线性关系,一般情况下定义π(xj,wn)=θ′znj,其中,znj={xj,wn},θ是参数向量。而f(εn)的表达式不同会导致不同形式的离散选择模型。在相关的实证研究中,假定εn的联合分布是多元极值分布中的某一类,其累积分布函数为,属于多元极值分布中的哪一类型取决于G(.)。这种离散分布模型被称为一般化极值模型(generalized extreme value models)。在企业区位选择的文献中,较为常用的是多项(条件)Logit模型(multinomial conditional logit model)和巢式Logit模型(nested logit model)。
在多项(条件)Logit模型中,假定随机组成部分εnj为独立同分布的。虽然当选择数量较多时会给计算带来不便,但边际效应却比较容易计算和解释。另一方面,多元(条件)Logit模型的主要缺点在于独立无相关选项的假设(independence of the irrelevant alternatives assumptions,IIA),即两个备选地的机会发生比率独立于第三备选地。因为任意两个地点j和i的概率比值,,取决于这些地点的属性。Bartik(1985,1988)指出,这个假设对于企业区位选择是不合理的,因为有许多无法测量的属性会影响企业的利润,而这些属性又与地点相关。而Carlton(1983)认为独立性假设并不是不合理,因为在实证研究中,区位在地理上具有一定的距离。其他使用该模型的文献并没有明确指出这个问题。
为了解决违反独立无关选项假设的问题,一些文献采用了巢式Logit模型(Hansen,1987;Henderson & Kuncoro,1996;Guimaraes et al.,1998;Basile et al.,2003)。假定将不同备选项分为Ds个不重叠的子集或巢(s=1,…,S)
其中,0≤λs≤1,而且每个εnj的边际分布是单变量极值。实际上,巢的最大数量是受到统计软件的限制的。如何定义巢也存在一定的问题,但这通常不是企业区位选择研究所关注的问题,因为数据是按照地理区域的行政区划(镇、县、省)来收集的,这就自然形成了巢式结构。关于替代性形式,假设在同一个巢中的备选项之间存在着常数相关性(用1-λs来衡量),在其他巢的备选项中没有相关性。因此,在同一个巢中的备选项之间的独立无关选择的假设成立,但在不同巢之间假设不成立。如果在所有巢中的备选项都是独立的(即λs=1∀s),那么巢式Logit模型就变成多项Logit模型(McFadden,1978)。
3.1.1.2 计数数据模型(CDM)
企业区位选择的计数模型主要包括以下假设(Becker & Henderson,2000)。第一,存在潜在的企业供给,在给定的时间点,考虑位置j(j=1,…,J)的新进入企业。这个供给函数是随机的、无法观察到的,主要取决于区位特征xj和给定时间内在这个区位新进入企业的数目nj。第二,存在着无法观察到的、随机的需求函数,主要取决于和供给函数一样的因素(xj和nj),再加上一些不影响供给函数的区位特征(i.e.,xj⊆zj)。第三,在特定时间段内某地点j的新进企业数目可以由供给和需求函数的交点得到。因此,存在一个均衡点,由简化形式等式可以得到nj=n(zj,…|θ)。
在这些假设下,工业区位选择的决定因素可以通过计算在其他条件不变的情况下,区位特征的变化如何影响给定时间段内地点j的新进企业数目的条件期望。然而,为了有效计算边际效应,我们需要知道nj的(条件)密度函数。给定非负整数特征的因变量nj=0,1,2,…,泊松分布是一个自然的选择。假设yi表示某时间段内新进入企业的数目,Xi表示影响企业空间利润函数的变量,其概率函数为
其中,,两边取自然对数得到lnλi=β′Xi,β为未知的参数向量。参数β的极大似然估计(maximun likelihood estimators,MLE)是通过似然函数取自然对数得到的:。
泊松回归模型的一个重要特征是因变量的条件均值与条件方差相等,并且等于λi,即E(yi|Xi)=var(yi|Xi)=λi=exp(β′Xi)。已有不少研究采用了泊松回归模型来分析企业区位选择(Smith & Florida,1994;Wu,1999;List,2001;Barbosa et al.,2004;Gabe & Bell,2004;Arauzo & Manjon,2004;Arauzo,2005,2008;Autant-Bernard et al.,2006;Arauzo & Viladecans,2009)。
然而,因为区位数据可能会拒绝“等离散性(equidispersion)”假设,即条件均值和条件方差是不相等的。过度离散意味着最大似然估计的参数不再有效。过度离散是由条件均值参数中未观察到的异质性引起的(Mullahy,1997)。这和最小二乘法中的异方差类似,参数估计是一致的,但方差估计是不一致的,导致无效的假设检验。“混合”泊松分布回归模型考虑到了这个异质性,假设E(yj|xj,uj)=exp(β′xj)uj=μjuj,其中uj是独立同分布的,主要的例子就是负二项分布模型(Negative Binomial Model,NBM)。负二项模型的概率分布为
其中,exp(ui)是均值为1、方差为α的伽马分布。条件方差函数可以用条件均值的二次项来表示,即var(yi|xi)=E(yi|xi)[1+α E(yi|xi)](Wu,1999;Cieslik,2005;Arauzo & Viladecans,2009)。如果α为零,则条件方差等于条件均值,泊松模型和负二项模型是一样的。条件方差函数经常用条件均值的线性形式表示,即var(yi|xi)=E(yi|xi)+α E(yi|xi)(Kogut & Chang,1991)。另外一些研究使用了负二项模型,但没有给出明确的条件方差函数的形式(Bade & Nerlinger,2000;Coughlin & Segev,2000;Gabe & Bell,2004;Egeln,et al.,2004;Cieslik,2005a;Audretsch & Lehmann,2005;Autant-Bernard et al.,2006;Arauzo,2008)。
用泊松伽马混合中的异质项来表示负二项模型的特征,可以理解为特殊区位的随机效应。然而,观察不到的区位异质性也是有可能的。这就需要使用“有限混合”模型,考虑到样本中的异质性群体可能存在不确定的数量(Cameron & Trivedi,1998)。例如,假设将区位分为两组(或者两个过程):一个是由于区位特定因素(如与自然和政策相关的),无论在什么情况下,企业都不会选择该区位(比如因为环境规制禁止某些企业进入),所以该区位的新进企业数一直为零;另一个是泊松过程,用来描述在某个区位新进入企业的概率,即在某个区位可能有新进入企业,也可能没有。在这种情况下,可能会显示出“过多的零(excess of zeros)”,低估零的频率可能会导致估计的不一致,可以通过采用零膨胀(零堆积)泊松模型(Zero Inflated Poisson Model,ZIPM)来解决这个问题。
其中,lnλi=β′Xi,Pi表示概率。
其中,Ri表示yi的泊松分布。
Pi的状态概率为Pi~Logistic(zi),其中,zi=φ β′Xi,φ是定义的新参数。List(2001),Gabe(2003)和Basile(2004)等在工业区位选择的实证研究中使用ZIPM模型。另外,Vuong(1989)提出了检验是否使用零膨胀模型(ZIPM)的统计量:如果|V|<1.96,那么两个模型在5%显著水平都不适用;如果检验统计量是正的且大于1.96,那么采用ZIPM,如果有大量负值,则采用标准泊松模型。