
第五节 研究方法
一 文献分析法
文献分析法,又叫文献资料法,是社会学研究中常用的一种基于现有文献资料的分析方法[41]。文献分析法通过对包含研究对象信息的文献资料进行收集、整理、鉴别和分析,来获得已有文献对所关注对象的认识、判断和评论,从而帮助研究者明确已有文献资料的现状、问题和方向,提出自身的观点、意见和建议。文献分析法分为定性和定量两种方法,具有可研究因时间和空间限制而无法接触到的对象和不干扰研究对象(无反应性)的特点[42]。文献方法既可以作为其他方法的辅助方法,也可以作为独立方法,来认识研究对象的历史发展特征和规律,为展开相应的探索性研究提供支撑[43]。因此,文献分析往往贯穿一项研究的整个过程。在本项研究中,从人口城镇化影响农地利用的逻辑起点,到农地制度改革路径探讨的研究结点,文献分析法一方面为本书相关论点提供重要的理论和方法支撑,另一方面引领本书探索已有文献未涉及之处。因此,文献分析法是本书的“元方法”。
二 数据包络分析法
数据包络分析法(Data Envelopment Analysis,DEA),是对多个研究对象在多种形式的投入和多种形式产出下的效率进行评价的定量分析方法[44]。其中,研究对象被称为决策单元(Decision-making Unit,DMU)。效率指技术效率(Technical Efficiency),是一项与全要素生产率(Total Factor Productivity)[45]密切相关的经济效率指标,指的是在生产技术和市场价格不变的条件下,按照既定的要素投入比例,生产一定数量的产品所需的最小成本与实际成本的比值[46],即成本导向型,或者产品实际产出量与最大产出量的比值[47],即产出导向型。因此,技术效率测定的前提是确定生产前沿面(Production Possibility Frontier)[48]。
目前,生产前沿面的确定方法主要分为两种:参数估计法和非参数估计法。参数估计法主要是通过事先确定的生产函数,进行参数估计拟合出生产前沿面,然后检验参数估计的有效性的一种方法。非参数估计法则是通过现实数据,基于一定的有效性标准,估计出位于生产可能性边界上的相对有效点,进而来确定生产前沿面的方法[49]。因此,非参数估计确定的是相对有效性。非参数估计的优点在于它不需要预先了解投入要素和产出要素之间的关联性,也不需要确定生产函数的形式[50]。其中,DEA法正是这样一种非常有效的确定生产前沿面的非参数估计方法。
在国内外,DEA作为生产过程效率分析的主要工具之一,受到许多学者的重视,并得到越来越深入的发展和越来越广泛的应用[51]。1978年,查恩斯(Charnes A.)、库伯(Copper W.W.)和罗兹(Rhodes E.)根据一组关于决策单元投入产出的观察值,在规模报酬不变的情况下,来估计有效生产前沿面(Efficient Production Possibility Frontier,EPPF),并对其进行多目标综合效率的评价,进而提出第一个基于DEA方法的模型——CCR模型[52]。随后,班克等放松了要素投入产出的规模报酬不变假设,提出了另一个经典的DEA模型——BCC模型,DEA法在评价决策单元之间的技术相对有效性方面得以实现、发展和应用[53]。DEA法的表达式如下[54]:
假设有n个生产单位,记为DMUj,(j=1,2,…,n)。在某一特定时间段内,其投入要素Ij和产出要素Oj向量分别为:


其中,m和s分别代表投入和产出要素的种类。在评价第j0(1≤j0≤n)生产单位的效率时,以其效率指数为目标,以所有决策单元的效率指数为约束,构成线性规划(D)模型如下[55]:

其中,θ为生产单位的相对效率数值;S-为松弛变量,反映投入的冗余率;S+为剩余变量,反映产出的不足率;λj为组合系数;δ取值为0或1: δ=0时,模型(D)为CCR模型;δ=1时,模型(D)为BCC模型。该模型所确定的生产可能集为:

当δ=0时,T为CCR模型对应的生产可能集;δ=1时,T为BCC模型对应的生产可能集。
DEA法根据所有生产单位投入组合的效率指数,首先确定位于生产前沿面上的有效集,然后以此为“参照物”,判定决策单元的相对有效性,所以用DEA法测量的效率反映的是被评价生产单位相对于参照单位的差距。本书拟用DEA法测算2000—2014年的全国样本县级行政单位的农地利用效率,效率之间具有纵向和横向的可比性,从而反映农地利用效率的时间变化和空间差异,并进一步用作模型的因变量,分析人口城镇化对农地利用效率的影响机制及区域差异。
三 固定效应模型
遗漏变量问题多数情况下是由不可观测的个体差异造成的。当不可观测的个体差异不随时间而改变时,遗漏变量的问题可通过面板数据解决。同时,面板数据可以解决时间序列分析的多重共线性问题,提供更多的个体动态行为信息,从而提高估计的精确度,进而克服单独的截面数据和时间序列数据所不能解决的问题[56]。本书基于全国1961个县级行政单位2000—2014年的面板数据,样本容量较大,信息量丰富,具有极大的数据挖掘价值。但个体异质性较强,而且个体不同期的扰动项也可能存在自相关,因此需要通过审慎的模型设定和稳健性检验来确保面板数据模型实证分析结果的可靠性。本书通过对个体回归方程设置不同的截距项,来捕捉个体的异质性,作为分析人口城镇化对农地利用效率影响的基本模型,其基本形式如下。

其中,β为待估参数,Xit为第i个地区t年度的外生解释变量;μi为个体不可观测的随机变量,代表个体异质性;εit为随机扰动项。μi+εit为复合扰动项。对于一般经济现象,个体异质性常常会对解释变量Xit产生影响,因此通常采用固定效应模型通过差分的形式将μi消除,来获得相对一致的估计量(陈强,2014)。在进行差分的过程中,由于对参数β的估计采用了个体的组内离差信息,因此,对模型的拟合优度而言,比较有意义的是组内R2(Within R2)。
因本书基于全国1961个县域2000—2014年的相关数据指标构建面板,虽然N> >T,但T跨度达到15年。因此,本书所采用的面板兼具长面板和短面板的共同属性,在进行固定效应回归之前,要对数据的单位根特征进行检验。此外,县域之间既存在不可观测的异质性,也存在一定程度的共性。因此,需要对每个县域的方程加入可以代表异质性的截距项,采用固定效应模型,通过逐步回归的方法,探索人口城镇化对农地利用效率的影响。
四 面板Tobit模型
计量分析模型的设定受数据类型的影响。本书作为被解释变量的农地利用效率是基于农地要素的投入和产出指标计算而得的,取值范围为(0,1]。虽然拥有所有县级行政单位的观测值,不存在数据截断(Truncation)的情况,但被解释变量可能被压缩归并到(0,1]这一区间,一定程度上属归并数据(Censored data)。同时,数据取值具有连续性,因此本书选取受限因变量Tobit模型来作为稳健性分析的方法,检验全国范围平均意义上人口城镇化对农地利用效率影响的固定效应模型的稳定性。
Tobit模型是Tobin.James于1958年提出的用MLE(Maximum Likelihood Estimation)来估计被解释变量部分连续分布和部分离散分布情形的方法。设其应用到面板数据的一般回归方程如式(1.6)所示:


其中,为不可观测,i(i=1,2,…,N)表示截面,t(i=1,2,…,T)表示时间;β为待估参数;μi为个体不可观测的随机变量,代表个体异质性;εit为随机扰动项。本书不存在
时的分布被归并到Yit=0的情况。因此,Yit的概率密度函数未发生改变。在μi与解释变量相关的情况下,为固定效应模型;反之,则为随机效应模型。对于固定效应的Tobit模型,由于无法确定个体不可观测效应的充分估计量,因此目前还不能估计固定效应的条件最大似然估计[57]。对于随机效应的Tobit模型,给定个体效应μi的情况下,可通过检验“H0∶σμ=0”来判断是否存在个体异质性。实际分析中,通常通过定义同一个体不同时期扰动项的自相关系数[如式(1.8)所示]来判定是否存在个体随机效应[58]。

其中,ρ越大,表明个体效应在复合扰动项中的重要性越大,应选择随机效应Tobit模型;否则,则需要采用混合Tobit模型。混合Tobit模型将个体不可观测的效应并入到xit中,其显著特性在于一方面放松了xit严格外生性的假设,从而可以在xit中包含一系列的条件变量,如因变量的滞后项、时间虚拟变量及其与时间变量的交互项等;另一方面允许εit存在序列相关[59]。然而其忽略个体不可观测效应的缺点在很多情况下并不适用于包含差异较大个体的面板数据。虽然可以通过引入面板单位虚拟变量的方法将个体效应纳入模型中,但所得到的固定效应估计量并不同于固定效应模型,存在一定的偏差。本书采用面板Tobit模型分析人口城镇化对农地利用效率的影响机制,作为稳健性检验的一种方法,具体模型形式需依据控制变量的选择、面板数据的相关检验进行确定。
五 中介效应分析
中介效应,最早应用于心理学研究领域,用来分析某一刺激是否通过某一过程变量影响了相关结果[60]。中介效应反映了一种内部的影响机制,即自变量通过影响中介变量的变化影响因变量的变化。因此,中介效应是自变量作用于因变量过程的重要结点。与回归分析相比,中介效应分析可以探索自变量对因变量的影响过程和影响机制,从而得到更深入的分析结果,因此在社会学领域得到了广泛的应用[61]。假设自变量为X,因变量为Y,如果自变量通过影响变量M影响了Y,则称M为中介变量,如图1-5所示。对于中介效应而言,关键在于分析a和b的乘积是否显著不为0。因系数乘积一方面反映了中介效应是否存在,另一方面反映了间接效应的大小,即中介变量在自变量X对Y产生影响过程中的调节效应,因此系数乘积的检验是中介效应分析的核心。

图1-5 中介效应分析示意
随着统计学理论的发展,目前中介效应分析已经发展出十多种经典的系数乘积检验方法。这些方法中既包括直接检验法,也包括间接检验法。其中,Sobel法(Sobel-Goodman mediation tests,Sobel)是直接针对系数乘积是否显著不为0进行检验的方法,比较适合大样本数据。本书基于人口城镇化对农地利用效率的作用机理,拟采用Sobel法分析相关中介变量在人口城镇化对农地利用效率影响过程中的调节作用。需要说明的是,乘积系数ab只是反映了调节效应的方向,其显著性也只是反映中介效应是否存在,并不表示自变量对因变量最终影响结果的方向和大小。
六 联立方程模型
经济现象是极为复杂的系统,在某些情况下,经济变量之间的关系可能是相互依存、互为因果的。这种情况下,可以通过选取工具变量用两阶段法来控制因变量对自变量的逆向影响,但工具变量法很难判断其影响的方向和大小,因此无法进一步分析因变量对自变量的逆向影响特征[62]。这种情况下比较合适的方法是用联立方程模型(Simultaneous equation systems)。联立方程模型的建立以经济理论为基础,通过给定联立方程模型的外生变量信息来对内生变量进行模拟、评价和预测,以揭示经济系统中各因素之间的数量关系和模型的数值特征[63]。
本书依据城乡二元经济理论考察人口城镇化对农地利用效率的影响,但从逻辑上来讲,农地利用效率的变化影响对劳动力投入的需求变化,同时农地利用效率关系到农地的投入产出情况,影响预期城乡收入差距。根据劳动力转移理论,预期收入差距是劳动力流动的主要原因。因此,农地利用效率有可能与劳动力转移存在一定程度的逆向因果关系。虽然这种逆向因果关系和人口城镇化对农地利用效率影响的正向因果关系存在显著区别,并且与一般互为因果的变量关系存在不同(后者的逆向因果关系通过一系列潜变量传导至被解释变量,需进一步验证),但通过对其的分析可以为本书进一步分析人口城镇化对农地利用效率的影响提供新的视角。
3SLS(three-stage least squares)可以考虑扰动项之间的协方差。因此,当模型的扰动项存在异方差和同期相关时,3SLS是一种有效的估计方法。其基本思路是:先用2SLS估计每个回归方程,利用其计算出的参数来估计方程之间的方差和协方差,并最终利用广义最小二乘法(generalized least squares)估计最终模型的参数估计量。鉴于本书涉及的面板截面间存在较大的个体差异,时序跨度较长,本书拟选用3SLS进行联立方程模型估计,模型的具体形式将在第五章中详细阐述。由于考察人口城镇化对农地利用效率影响的逆向因果关系,可能涉及正向因果关系是否存在内生性的问题,本书也借助于联立方程模型的估计结果,检验基于固定效应模型的正向因果关系是否存在估计偏差,并在联立方程模型结果的基础上,分析人口城镇化对农地利用效率影响的动态关系。