3.2 CVM的有效性与可靠性_流域生态系统恢复价值评估：CVM有效性与可靠性改进视角-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

3.2 CVM的有效性与可靠性

3.2.1 CVM的有效性与可靠性研究

CVM的目的在于获取消费者对福利变化的真实支付意愿。但调查可能得到的只是消费者的陈述偏好，对于消费者的陈述偏好能否体现其真实支付意愿需要进一步检验。CVM的有效性和可靠性检验最早由心理学家提出（Bohrnstedt,1983）。有效性是指CVM结论是否“准确”，即调查值与真实值的一致性程度（Freeman,1993）。可靠性强调的是CVM调查结论的“稳定性”（Consistency）或“再现性”（Reproducibility）（Kealy et al., 1990）。有效性和可靠性是两个不同的考核维度，有效性高并不一定表示可靠性高，反之亦然。

3.2.1.1 CVM的有效性

CVM的有效性包括内容有效性（Content Validity）、标准有效性（Criterion Validity）以及建构有效性（Construct Validity）三类。

1．内容有效性

内容有效性是指问卷能否恰当地引导受访者表述其真实WTP。例如，受访者是否理解所调查的内容，是否对CVM场景中的关键环节特别敏感（如支付工具）。内容有效性检验主要集中在问卷设计、调查手段以及抽样方法等方面。对内容有效性的检验应该放在正式调查之前进行，在问卷设计中应注意借鉴其他领域（如经济学、管理学、社会学和心理学）内的专家的意见。

应当指出的是，问卷设计和调查过程本身就不可避免地带有主观性，内容有效性问题始终都存在。实际上，只要调查问卷正确且描述清楚，通常就都会认为内容是有效的（唐增、徐中民，2008）。提高内容有效性的常见检验方法有可视化帮助（Visual Aids）、面对面采访、多轮预调查等。

2．标准有效性

标准有效性是指CVM的评估结果能否如实反映所调查对象的“真实”价值，有时也被称作外部有效性（External Validity）。理论上，标准有效性是鉴别效果最好的有效性检验方法，因为它将调查结果与真实结果进行对照。进行标准有效性讨论的关键在于设定一个“标准”，这个标准可以是真实的市场价格，也可以是实际的支付行为。就私人产品或定义明确的非使用价值而言，较容易设定相应的“标准”。但是，当调查对象为公共品或者定义不明确的非使用价值时，基本上不存在这样的市场和价格，也很难有实际的支付行为作为参考。此时，研究者一般通过构建假想的模拟市场来进行标准有效性讨论。但这样一来，又很难保证模拟市场所得到的“价值”就一定是那个“真实”的价值。

3．建构有效性

标准有效性过于理想化，可操作性不强。研究者又提出了建构有效性检验标准。建构有效性包括收敛有效性（Convergent Validity）和理论有效性（Theoretical Validity）两类。理论有效性也被称作内部有效性。

所谓收敛有效性是指利用不同评估方法（如TCM、CVM、HPM等）或不同询价技术（如开放式问卷、封闭式问卷等）对研究对象进行价值评估，并分析其估计结果在统计上是否存在差异。理论有效性是指研究结论是否与理论预期相符。例如，如果环境服务对受访者而言是正常品，那么按照经济学理论，投标值越高受访者的WTP会越低；又例如，受访者收入越高，预期其WTP也应越高。理论有效性检验并不能告诉我们偏差究竟有多大，但可能帮助我们找出影响偏差的因素。

WTP/WTA偏差也是理论有效性检验的重要内容之一。研究发现，在CVM下，WTP和WTA的估计会存在显著差距（Horowitz and McConnell,2002）。理论有效性的另外一个重要内容是进行范围敏感性检验（Scope Test），即确定WTP是否随评估对象的变化（包括质量或数量）而发生符合理论预期的变化。具体又可分为内部范围检验（Internal Scope Test）和外部范围检验（External Scope Test）。外部范围检验是指就同一评估对象的两种不同供给水平（数量或质量）询问不同的人群，以观察两类群体在WTP上是否存在差异。而内部范围检验是指向同一受访者提供两种不同的供给水平（数量或质量），然后观察两种情形下的WTP是否存在差异。

3.2.1.2 CVM的可靠性

CVM的可靠性（Reliability）是指WTP的变异程度在多大程度上是由随机误差所造成的。换言之，可靠性强调CVM结论的可再现性和稳定性。进行时间可靠性检验的意义在于，由于政策的影响具有长期性，因此必须对评估结论的跨期稳定性进行研究，以便进行更为科学的成本收益估算。

1．回归方程的R2

R2是评价评估结果可靠性的指标之一。R2越低表明误差越高，可能是问卷设计不合理或者估计模型错误造成的。Mitchell等认为如果R2小于0.15的话就表明估计结论的可靠性较差（Mitchell R. C., Carson R. T., 1989）。因此，在解释变量的选择上需要更为谨慎，因为不同的解释变量组合所得到的结论可能不同，不仅会质疑理论有效性，而且还会影响到R2的大小。不过，R2指标更适用于开放式、支付卡式询价方法，因为这类数据为连续数据，进行普通最小二乘估计即可。而在封闭式两分式下所得到的数据为离散数据，经典的计量模型并不适用，R2也就失去了原有的意义。尽管还可以选取McFadden-R2, Pseudo-R2或者极大似然比率等其他衡量指标进行评价，但这些指标的直观含义较之于经典计量模型要模糊得多。

2．时间稳定性

时间稳定性（Temporal Consistency）指在不同时点上用同一调查方式对不同样本进行调查，如果前后两次WTP基本一致则表明稳定性较好。但环境系统是一个动态系统，如果评估时间不同，那么原来的待评估对象可能发生变化。进行时间稳定性检验的另外一个未解决的问题是时间间隔。间隔过短会影响第二次调查的独立性，间隔太长则受访者的经济社会特征会发生较大变化（董雪旺等，2011）。

3．检验—复检验

检验—复检验（Test-retest）是用同样的问卷和调查方式对同一样本在相隔一段时间后进行再次调查，以检验前后两次调查的结论是否一致。不过，由于调查时间不同，再次调查时很难跟踪到参与第一次调查的全部受访者。即便跟踪到原先的受访者，其社会经济特征也可能已经随着时间推移发生了变化。换句话说，在进行检验—复检验时，我们可能很难找到完全相同的调查样本，有时候只能抽取相似的样本。此外，与时间稳定性检验类似，检验—复检验同样面临着时间间隔选取问题。因此，严格的检验—复检验的可操作性并不高，更适合在实验室进行。

可靠性衡量的是可比性（不同个体间、同一个体在不同时间上的差异），与有效性不同，它并不涉及估值结果是否是估值物品的真实价值。可靠性的问题主要源自两个方面：调查取样过程和统计分析过程。所以，通常有两种方法可以提高有效性：一是更大的样本容量；二是采用更有效的统计技术处理“奇异值”。奇异值指的是过于极端的回答，它会显著影响估计结果。

4．平行检验法

无论是时间稳定性检验还是检验—复检验，其所面临的最大问题是调查成本过高。一种替代方法是在同一份问卷中提供两组不同的询价技术，即平行检验（Parallel Test）。例如，在封闭式问题结束后，可以再提供一个开放式问题，直接询问受访者的支付意愿。如果两种方法在估计结果上具有很好的可比性，则表明检验结论较为可靠。但平行检验方法的最大缺点是无法保证第一次询价是否会影响到第二次询价。

3.2.1.3 WTP/WTA差异

度量消费者剩余有两个指标：补偿变化（Compensation Variation, CV）和等价变化（Equivalent Variation, EV）。当价格下降的时，CV表示使个人效用保持在最初水平下的货币收入变化量，因此它是价格下降时个人支付的最大数值，它代表一种支付意愿（Willingness to Pay, WTP），EV是使个人效用保持在价格下降后的效用水平上的货币收入变化量，因此它是为替代价格下降的个人所接受的最小补偿量，它代表一种补偿意愿（Willingness to Accept, WTA）。当价格上升时，CV表示个人的最大意愿补偿值（WTA），而EV表示个人最大意愿支付值（WTP）。

根据标准的福利经济学理论，如果收入和财富效应相同，则WTP和WTA在数值上应大致相当。Willig证明在完全竞争的私人市场下，产品的收入弹性不大时（即产品的消费支出占消费者的收入比例较小），WTP与WTA在估值上会非常接近（E. G. Willig,1976）。

然而，理论上的推断似乎并没有得到经验数据的支持。大量研究显示，WTA要明显大于WTP。Brown等对水鸟捕猎权的研究发现，WTP为247美元而WTA却高达1044美元（Brown and Hammack ,1973）。Cummings等对15篇论文进行归纳后发现，平均而言，WTA是WTP的1.5～16.6倍（Cummings et al., 1986）。而Horowitz等对208个研究案例进行整理后发现，平均而言，WTA约为WTP的7倍（Horowitz and McConnell,2002），并且随着产品类型的不同，WTP和WTA之间的比率存在差异，非市场产品的比率约为10.4，正常品的比率约为2.9，而对货币进行评估时，二者间的比率为2.1。通过构建回归模型，Horowitz等发现，WTP/WTA比率主要受到产品的类型（是公共品还是私人品）的影响。但与常识不同的是，他们发现WTP/WTA比率与市场是真实的还是假想的无关。同时，在采用激励相容调查技术的研究中，WTP/WTA比率会更大而不是像早期的研究所认为的更低。这一发现的含义是，将假想市场转向实验室可能并不会缩小二者间的差距。同时，受访者对调查内容的熟悉程度并不会影响WTP/WTA比率（Horowitz and McConnell, 2002）。据此，Horowitz等认为，WTP和WTA之间的差异可能更多地受受访者的广义偏好（Broad-based Preference）影响。据此，批评者认为CVM有悖于新古典消费理论，因而在测度福利水平上并不可取（Diamond,1996）。

面对WTP和WTA之间如此巨大的差距，学术界试图从问卷设计、调查手段、经济学和心理学等视角进行解释。从解释力来看，基于收入效应、替代效应以及禀赋效应的解释最具有说服力。其他不太常见的解释包括隐含价值（Implied Value）、产权理论（Property Rights）、交易费用（Transaction Costs）、利益驱动（Profit Motive）、合法性（Legitimacy）、不确定性（Ambiguity）、责任不对称（Responsibility）、熟悉度（Familiarity）等。参见Brown（1999）、Venkatachalam（2004）、赵军等（2007）以及张翼飞和赵敏（2007）的总结。在Hanemann等看来，WTP和WTA之间的差异不仅取决于收入效应，而且会受到替代效应的影响。产品的可替代性越弱，二者间的差异就越显著。极端情况下，如果产品完全不存在替代品，那么虽然WTP也会很大，但其上限要受到收入水平的制约。相反，在WTA下由于没有收入可以补偿产品数量减少所造成的损失，因而其取值趋近于无穷大（Hanemann et al., 1991）。Hanemann等进一步指出，较之于传统产品，环境产品的可替代性极弱，因此针对环境产品的WTP和WTA会相差更大。Shogren等在随后进行的一项实证研究中也证实了这一判断（Shogren et al., 1994）。

与经济学解释视角不同，一些心理学家则强调禀赋效应（Endowment Effect）的作用。禀赋效应是指个体在拥有某物品时对该物品的估价高于没有拥有该物品时的估价的现象。Thaler首次提出了禀赋效应这一概念，认为禀赋效应导致了WTA与WTP之间的差异（Thaler, 1980）。在Thaler（1980）所举的一个经典的禀赋效应例子中，研究者向被试呈现了如下两个情境：其一，假设在一周内你有0.001的概率感染一种疾病，如果感染的话，会很快且无痛苦地死去，那么你最多愿意花多少钱来治愈这种疾病？二，假设某项研究需要志愿者，同样有0.001的概率感染这种疾病，如果你参加这项研究，你要求研究者最少付给你多少钱？结果发现，被试在两种情境中所给出的货币量并不一致，第一种情境中被试给出的价格是200美元，而第二种情境中则是1000美元。在第二种情境中，因为被试将自己所拥有的健康看做一种禀赋，对其评价更加积极，从而导致被试提高对其的估价，所以产生禀赋效应（转引自刘腾飞等，2010）。在禀赋效应产生的原因上，心理学家将这种差别归因于损失规避（Loss Aversion）、前景理论（Prospect Theory）和自尊等原因。其中，损失规避指人们对损失的痛恨程度往往大于相同的收益所带来的喜悦程度。前景理论是指人们更倾向于维持现状的一种心理状态。另外一种基于心理学视角的解释是“谨慎消费假说”（Mitchell and Carson,1989）。根据这一假说，家庭通常没有时间去搜集所调查的环境产品足够多的数据信息来优化自己的决策，因此在真实价值上总是存在不确定性。为了谨慎起见，与信息完全完备时相比，理性的家庭通常会低估WTP而高估WTA。

除此以外，不少研究者还认为熟悉程度也会对WTP/WTA偏差产生影响（如Cummings et al., 1986; Shogren et al., 1994）。例如Coursey等发现，随着重复实验的次数增多，WTP/WTA偏差逐渐缩小（Coursey,1987）。具体而言，在多次实验后，WTP基本保持稳定，但是WTA在数值上下降得非常快。因此，造成WTP/WTA偏差的另外一个原因可能在于受访者没有足够的时间优化自己的决策。

理论上，WTP及WTA虽均可用来评估自然资源的价值，但两者的含义与实际金额却不一定相同。WTP与WTA具有不对称的价值取向（Kahneman and Tversky,1979），消费者面对不确定因素或者进行风险规避考虑时也会出现取舍上的差异。同时，受访者对于补贴金额通常会持“多多益善”的态度，而对于支付价格则趋于谨慎，越少越好（Bishop and Heberlein,1979; Cummings et al., 1986）。Hanemann（1984）认为WTP不可能超过受访者的收入水平，而WTA则存在无限大的可能。综合这些因素，并考虑到CVM所评估的对象通常可替代性较弱，因此单就实证研究技术而言，采用WTP估算非市场产品价值更为妥当（Cummings et al., 1986; Arrow et al., 1993）。

3.2.1.4 范围敏感性

范围敏感性问题最早由Kahneman（1986）提出。在埃克森石油泄漏事件后，范围检验成为CVM领域内的研究焦点之一。Arrow等（1993）更是指出：“范围敏感性是检验CVM可信度最重要的标准。”

范围效应是指受访者的WTP并不会随着评估对象的数量或质量变化而改变。范围效应在不同场合也被称为嵌入效应（Embedded Effect）、以偏概全偏差（Part-whole Bias）、次加总效应（Subadditivity Effect）、象征偏差（Symbolic Bas）等（Kahneman and Knetsch,1992）。尽管这些概念所考察的侧重点不同，但在本质上没有太大差别（Boyle et al., 1994）。例如，受访者对河流A单独进行评估与对整个区域内所有河流进行评估的WTP在数值上可能相差不大。又例如，受访者对河流A的水质从劣Ⅴ类改善到Ⅲ类与从劣Ⅴ类改善到Ⅱ类的评估结果也可能差别不大。范围检验可分为内部范围检验（Internal Scope Test）和外部范围检验（External Scope Test）。外部范围检验是比较分离样本（Split-sample）的WTP的差异。外部检验由于忽略了受访者在个体特征上的差异，因此对同一样本进行内部范围检验更加具有说服力。

范围不敏感被认为是CVM的重要缺陷之一（如Diamond and Hausman,1994; Boyle et al., 1994）。早期进行的研究中，Kahneman等提供了三种逐层嵌套的公共品（A包含B, B又包含C），结果发现受访者对A、B、C的WTP依次为139.91美元、151.6美元、122.64美元。据此Kahneman等人认为，受访者在CVM下如何作答和非市场产品的价值无关，仅仅反映受访者对“道德满足感”（Moral Satisfaction）的购买（Kahneman and Knetsch,1992）。

与Kahneman等人的研究思路略有不同，Diamond等（1993）和Desvousges等（1993）就同一评估对象的不同供给水平进行了范围检验，结果同样发现了范围不敏感。Mitchell等认为，造成CVM范围效应的原因之一可能在于其评估对象是非使用价值（Mitchell and Carson,1989）。不过这一观点很快受到了Kahneman等（1992）的批评：即使在评估私人产品时，CVM同样存在范围不敏感问题。

但是也有学者指出，范围不敏感并不意味着CVM与需求理论是相悖的。例如，Rollins和Lyke（1998）就认为范围不敏感也可能是边际价值递减造成的。对于自然保护区这类公共品而言，受访者更为关心的可能是“有”还是“没有”的问题。继续提高公共品的数量或质量所带来的效用虽然为正，但在边际变化上不会太明显。Randall和Hoehn（1996）则发现，即使是人们在现实生活中进行私人产品消费决策时，也可能存在范围不敏感问题。Hanley等（1995）认为范围不敏感可能是因为评估对象过于复杂，受访者无法辨别其数量或质量的变化究竟是显著的还是不显著的。但这种担心似乎是多余的，Veisten等（2004）的研究则发现，即便在评估较为复杂的对象（如生物多样性）时，CVM也可以通过范围敏感性检验。

最近的一系列研究则提供了更为积极的信号。Smith和Osborne（1996）根据5篇有关空气可见度的研究文献进行Meta分析后发现，受访者对空气质量的变化非常敏感。Carson等（1997）发现，有30多篇文献通过了范围检验，约占80%，那些未通过显著性检验的文献具有如下共性：（1）样本量较小；（2）问卷设计质量不高；（3）调查手段主要为邮件调查或电话调查。

Heberlein等（2005）最近的一项研究显示，熟悉程度是影响范围效应的重要因素：一是当受访者对“部分”了解更多，或者更加喜欢“部分”，或者对“部分”有过消费经历时，其会倾向于高估“部分”的价值；二是当受访者对“整体”和“部分”都比较熟悉，或者都具有明确的偏好，或者都曾经有过消费经历时，CVM完全能够保证范围敏感性。其中的逻辑是，受访者如果对评估对象不熟悉，就会“构建”（Construct）自己的偏好。在构建偏好假设下，受访者不会根据既有的偏好进行决策，而会根据问题框架进行启发式推理（Heuristic Cues），从而导致决策偏误（Tversky and Kahneman,1974）。

CVM在研究私人产品时，基本能够保证范围敏感性，但在研究公共品时，尤其是在研究较为陌生的公共品时，则会存在不同程度的范围不敏感问题。综合起来，造成范围不敏感的原因可归纳为三点：

（1）统计检验的功效问题。例如Diamond等（1993）在检验人们对野生动物保护区的不同保护强度的WTP是否存在差异时，得到统计检验的P值为0.42（原假设为WTP相等）。

（2）问卷设计和调查实施问题。例如问卷对评估对象“部分”和“整体”的区别没有界定清楚，即便受访者清楚“部分”和“整体”的区别，也可能存在搭便车的心理。当然，也可能是二者间的区别过于复杂导致受访者很难理解。

（3）公共品的边际效应下降很快，受访者一旦支付过就不愿意多支付（Carson et al., 2001）。

因此，范围不敏感问题可以通过合理的问卷设计和调查方式缓解。例如，采用面对面访谈的方式，尽可能让受访者理解评估内容，同时要让受访者相信项目是真实可信的，并营造宽松的氛围，降低受访者的道德满足感。

3.2.1.5 收敛（标准）有效性

收敛（标准）有效性的检验方法主要有4种：一是将CVM估计结果和间接估计结果进行对比（如TCM、HPM）；二是将CVM的结果和实际市场交易结果对比；三是通过模拟市场，将CVM组和实际支付组进行对比；四是将假想市场行为和实际投票行为进行对比。其中，应用最广泛的是前三种方法。但第一种方法只能用来评估市场产品，因为非市场产品是无法进行真实交易的。表3-1对涉及标准有效性或收敛有效性讨论的部分文献进行了归纳。

表3-1 CVM有效性与可靠性检验文献汇总

通过对比可以发现，由于在评估对象的性质（私人产品还是公共产品）、受访者对评估对象的熟悉程度（使用价值还是非使用价值）以及询价方式（开放式还是封闭式）等因素上的差异，现有研究结论可谓见仁见智。即便是基于同一实验数据，由于估计方法的不同，也可能得到完全相反的结论，具体可参见Cummings等（1997）和Haab等（1999）的讨论。因此，真正值得进一步研究的课题不是存在或者不存在差异，而是哪些因素会造成估计结果出现偏差。从目前国内外的研究成果来看，这个问题并没有被解释清楚。

3.2.2 CVM有效性和可靠性的影响因素

3.2.2.1 熟悉程度

真实的熟悉程度是保证受访者提供有意义的回答的重要前提（如Desvousges et al., 1993）。熟悉程度高有助于受访者更好地理解调查项目，提高项目实施的简便性和WTP估计结果的精确性。其中的逻辑是，只有消费者有过直接的消费经历才能形成明确的经济学意义上的偏好。而在CVM的实际运用中，受访者对待评估对象有过直接消费经历的可能性却较低，尤其是在评估非市场价值（如生物多样性）或非使用价值时（如存在价值）。

信息包括外生信息和内生信息（Cameron,1997）。受访者本身具有的经历称为内生信息（或称之为熟悉程度），调查过程中所提供的信息称为外生信息。熟悉程度可能源自受访者的直接经历，也可能源自间接经历（如从媒体、亲友处获知）。首先我们讨论熟悉程度的影响，外生信息的影响将在后面展开讨论。

Whitehead等根据熟悉程度的不同将受访者分成三类：现场使用者、非现场使用者和非使用者。根据Whitehead等（1995），现场使用者指有过使用经历的受访者，例如有过长江游憩经历等；非现场使用者是指通过媒体渠道了解或讨论过评估对象的受访者，表明他们对此较为关心；非使用者指在问卷调查之前从未听说过评估对象的受访者。结果发现，现场使用者和非现场使用者的价格和收入变量在影响方向上符合理论预期，而对于非使用者上述结论并不成立（Whitehead et al., 1995）。据此，Whitehead认为如果受访者在调查前缺乏经验知识，就会降低CVM的有效性和可靠性。类似地，Cameron（1997）在一项对鳟鱼丰裕度的研究中发现，之前有过垂钓经历的受访者其WTP的精确性更高。在一项关于水鸟保护支付意愿的研究中，Boyle等（1994）发现，狩猎者的支付意愿要明显高于非狩猎者。Turpie（2003）在一项对南非的生物多样性价值评估研究中，进一步区分了知识（Knowledge）、经历（Experience）和兴趣（Interest）等因素对WTP的影响。结果发现，WTP和受访者的经历（参观的频次）关系不大，而和知识、兴趣之间具有显著的正相关性。

CVM的批评者普遍认为，对于缺少直接消费经历的产品，受访者不可能形成明确的偏好。但标准的微观经济学理论并没有强调消费经历是理性决策的先决条件（Carson et al., 2001）。实际上，消费经历仅仅是影响消费决策的诸多因素中的一个，其还可能通过媒体、口碑等途径传递。此外，即使缺乏消费经历，但如果受访者认为评估对象确实重要，那么受访者同样会做出理性的决策。实际上，在现实生活中，常常会有一些消费者从未使用过或并不熟悉的新产品推出，但这丝毫没有影响人们进行理性的消费决策。因此，一个值得研究的问题是人们面对陌生产品或者不确定性时是怎样进行决策的。

本研究采取的应对措施如下：通过两组可视化辅助手段强化受访者对调查对象的感性认识。

3.2.2.2 询价方法偏差

CVM常见的询价方法包括逐步竞价法（Bidding Game）、开放式（Open-ended）询价、支付卡式（Payment Card）询价以及封闭两分式（Closedended Discrete Choice）询价。其中封闭两分式常见的有单边界（Single Bounded）、双边界（Double Bounded）两种。近年来，学术界又提出了三边界（如Bateman et al., 2001）、多边界（如Welsh and Gregory,1998）、1.5边界（如Bateman et al., 2009）等其他询价方法。不过，这些询价方法目前尚未被学术界广泛运用。

（1）逐步竞价法。研究者首先选定初始投标值，然后询问受访者是否愿意支付。若回答“是”，则提高金额继续询问直到受访者不愿意为止；反之，若受访者回答“否”，则降低金额继续询问直到受访者愿意为止。最后一次回答“是”时所对应的投标值即为受访者的最大WTP。

（2）开放式询价。开放式询价是最直接的询价方式，指调查人员事前并不提供任何价格范围的参考信息，而是让受访者凭主观感受来陈述其最高WTP。

（3）支付卡式询价。支付卡向受访者提供一组数字，让受访者圈选出自己心中满意的答案。从提问方式来看，支付卡分为四类：1）直接圈选出愿意支付的数值；2）圈选出WTP的最低值；3）圈选出WTP的最高值；4）圈选出WTP的区间。

（4）封闭两分式询价。封闭两分式询价主要有单边界两分式和双边界两分式两种形式。在单边界两分式下，研究者就所评估对象询问受访者是否愿意支付某一随机金额（A），受访者只需回答“是”或“否”。在单边界问卷下，研究者只能获取受访者的WTP是否高于A这一有限信息。双边界询价方法是对单边界的进一步扩展。具体实施原则是：受访者在第一轮封闭式问题中若回答“是”，则提高金额继续询问；反之，若受访者在第一轮中回答“否”，则降低金额再询问一次。

询价方法评估结果不收敛是CVM被批评的主要原因之一（Hausman,1993）。为了检验询价方法是否会对价值估算产生影响，学术界进行了一系列有益的探讨。例如，Bateman等（1995）通过比较开放式、封闭单边界和逐步竞价法下WTP的影响因素发现，受访者在回答开放式问卷时不确定性最高。Brown等（1996）对11篇文献进行了归纳，发现封闭式询价所估算出的WTP是开放式的1.12～4.78倍。造成这类偏差的原因一方面在于受访者在封闭式询价下可能存在“随声附和”（Yea-saying）现象，另外一方面在于偏好的不确定性（Ready et al., 1996; Brown et al., 1996）。Cameron等（2002）在一项对环境保护支付意愿的研究中发现，WTP估值结果从大到小排序是封闭两分式＞支付卡式＞开放式。但Blaine等在对废弃物回收利用的研究中同样证实了Cameron等人的发现：封闭式询价方法的估计值要大于支付卡式（Blaine et al. 2005）。

本研究采取的应对措施如下：设计了开放式、支付卡式、封闭式单边界以及封闭式双边界四组询价方法进行综合比较，以便筛选出符合经济学意义、可通过统计学检验且政策实践操作性强的估值结果。

3.2.2.3 调查方法偏差

常用的调查方法包括当面调查、电话调查和邮寄调查三种。近年来，随着互联网的兴起，利用网络问卷的调查方式也逐渐被学界采用。调查方法对CVM的影响主要有四种可能（Ethier et al., 2000）：第一，抽样偏差；第二，社会认可偏差（Social Desirability Bias）；第三，亲和力偏差（Avidity Bias）；第四，响应率偏差。例如，网络调查的对象只能是具备上网条件的公众，从而人为地排除了一些样本，造成了抽样偏差。在电话调查或当面调查中，受访者可能会基于社会责任的考虑，给出有悖于自己真实想法的回答，造成社会认可偏差。亲和力偏差是指对调查内容感兴趣的受访者更愿意参与调查。响应率偏差是指受访者终止调查的可能性。

本研究采取的应对措施如下：考虑到我国的文化习俗和西方国家的差异，采用当面调查方式，同时注意避免调查员偏差。

3.2.2.4 策略性偏差

策略性偏差是指受访者担心调查结果将来会被用来制定政策，影响到自己的效用水平，从而刻意不陈述其真实偏好，以期影响调查结果。常见的原因有搭便车、谨慎偏差、过度承诺、奉承偏差等（董雪旺等，2011）。例如，受访者如果认为自己陈述多少就要支付多少，在搭便车的心理下就会故意降低自己的支付意愿。相反，如果受访者确信环境服务肯定会提供，即使自己不支付也会由别人支付，就可能存在高估。受访者也可能为了显示自己的“社会责任感”而奉承调查人员，故意高估自己的支付意愿。策略性偏差在实际调查中很难检测出来，要完全避免策略性偏差是极为困难的。不过，一些学者通过实验发现，策略性偏差可能并没有想象的那么大（Garrod and Willis,1999）。

本研究采取的应对措施如下：由于在开放式和支付卡式询价方法下，受访者采取策略性行为的可能性更高，因此在第三轮大尺度调查中采用封闭式询价方法进行调查。对完成询价问题的受访者均追问其愿意支付或拒绝支付的原因，以此判断其支付意愿是否真实可信。剔除支付意愿超过家庭年收入水平5%的受访者。提醒受访者将调查问题的真实性和政策性区分开来。为了避免因受访者对支付工具不满而造成的策略性响应，让受访者自行选取其心仪的支付工具。

3.2.2.5 假想市场偏差

假想市场偏差（简称为假想偏差）指受访者在假想市场中的支付与在真实市场中的支付不一致。这种偏差源自CVM调查对虚拟市场的构建。传统观点认为，由于这样的市场是虚拟的，因此受访者不会认真对待，其回答未必能反映真实情形。研究发现，熟悉程度是造成假想偏差的重要原因之一（Michell and Carson,1989）。此外，评估对象的性质也是影响假想偏差的重要因素。例如相比私人产品，CVM对公共品进行价值评估时更倾向于造成高估。List和Gallet（2001）、Murphy（2005）还指出，询价方法是造成假想偏差的主要原因。此外，在进行假想偏差检验时，现有研究大都是以学生为实验对象，这也可能是偏差的一个来源。

应对假想偏差有三种手段：事前处理（Ex ante）、事后处理（Ex post）或者采用不协调性最小化（Dissonance Minimize, DM）问卷。廉价磋商（Cheap Talk）就是一种使用最广泛的事前处理方法，这种方法起源于实验经济学，其核心思想是在调查之前提醒受访者可能存在假想偏差、造成假想偏差的原因（如替代品信息、预算约束等）。

事后处理是在受访者回答愿意支付后，追问其对该支付的决心程度（或称之为不确定性量表法）。例如，采用量表的方式询问受访者是肯定愿意支付该金额还是不太确定，然后根据受访者的不同态度对其支付意愿进行调整。

DM问卷源于如下事实：封闭式问卷会将受访者置于两难的境地——是如实回答愿意或不愿意支付，还是仅就支持与否表明态度？例如，尽管受访者对评估对象的偏好为正，但问卷所提供的投标值可能过高。DM问卷的核心思想是增加一个问题选项，将受访者是否支持该项目的态度和支付金额的大小两种情况区分开来。例如，可以提供“虽然我支持这个项目，但对我来说它并不值50元”“虽然我支持这个项目，但我付不起50元”之类的选项。

上述三种方法中，廉价磋商和不确定性量表法使用得更为普遍。有关这两种方法的详细讨论将在本研究第十三章展开。

本研究采取的应对措施如下：根据DM原理，将消费决策过程区分为“加入决策”和“支付决策”两个阶段，以区别受访者的心理动机。在进行价值估算时，分别采用廉价磋商和不确定性量表法对受访者的响应进行校正。

3.2.2.6 支付工具偏差

常见的支付工具有自由捐款、缴税（如环境税、收入税等）、成立基金会募款、义工、提高水电费、提高相关产品的价格（如许可证）等形式。支付工具的可行性和真实性会影响受访者的WTP。例如，自愿捐款不具有激励相容性，再加上市场的假想性，会造成受访者倾向于给出过高的评价值（Caron,1997）。或者受访者觉得当前的税负太重，从而排斥税收手段，造成低估。由于文化习惯不同，发展中国家的公众可能具有不同的支付工具偏好。一些强制性支付手段容易造成受访者的反感，如征收环境税等。就支付方式而言，常见的有一次性支付、按月支付和按年支付。一次性支付主要适用于评价偶发性事件，而按月支付过于频繁，容易造成支付意愿不足。相比之下，以每户每年为预算约束单位更易被受访者接受。此外，支付年限的选取也应该予以重视，通常为5年或10年。

本研究采取的应对措施如下：提供日常生活中常见的或较为熟悉的捐款、缴纳生态税、提高水价以及存取基金（像缴纳社会保险金一样，从工资账户中定期扣除）等几类支付工具，同时以家庭为支付单位，支付年限选取5年。

3.2.2.7 零响应偏差

零响应是指问卷调查中会有大量受访者拒绝支付。根据其背后动机的不同，零响应群体又可进一步区分为“真实零响应”（True Zero Response）和“抗议性响应”（Protest Response）两类。真实零响应表示环境变化的边际效用为零，受访者因此表现出无差异偏好；而抗议性响应则意味着，虽然环境变化的边际效用大于零，但受访者会因为对支付工具不满意或对市场的真实性表示怀疑等原因而选择拒绝支付。抗议率表示受访者对调查问卷的理解程度，是衡量问卷内容有效性的一个检验指标（杜丽永等，2013）。

在零响应方面有两个问题值得研究：第一是如何识别零响应者是抗议行为还是真实行为；第二是如何处理零响应样本。早期的做法是将其直接剔除（如张志强等，2004）或者用较小的正数（通常为1元）替代（如张明军等，2007）。直接删除不仅忽视了抗议性响应和真实零响应有着完全不同的经济学含义，而且还损失了有效的信息，更可能造成样本选择偏差（Sample Selection Bias）。而用较小的正数作为零响应者的真实WTP，由于缺乏理论依据导致主观随意性很强。

本研究采取的应对措施如下：避免使用有争议的支付工具；调查过程中避免使受访者产生反感；向受访者说明我们的身份及调查目的，并指出他们的回答受法律保护；对拒绝支付的受访者追问其拒绝支付的原因，通过构建评价指标区分零响应受访者的所属类型。综合对比直接删除法、替代法以及更为正式的Spike模型和样本选择模型的估计结果的有效性和可靠性；零响应样本过多时同时报告中位数WTP估值结果。

3.2.2.8 信息偏差

CVM问卷所提供信息的数量和质量至关重要，CVM的有效性和可靠性在很大程度上受到信息提供数量、质量和顺序的影响。当受访者对所评估的对象较为陌生时（如非使用价值），若信息提供不充分或者不恰当，受访者就无法形成明确的消费偏好。当然，如果问卷所提供的信息与受访者固有的知识结构相悖，那么也会造成另一种偏差。

一般来说，受访者需要掌握的信息包括评估对象的特征、预算约束、替代品和互补品的信息、其他人的支付信息等。在这些信息中，最重要的是预算约束信息和替代品信息（Arrow et al., 1993；董雪旺等，2011）。当然，问卷所提供的信息并非越多越好，除了受问卷容量的限制以外，信息量过大或过于复杂还可能导致受访者产生厌倦心理。此外，还要考虑问卷所提供的信息与受访者既有信息之间的偏差。例如Elcin通过调查发现，如果问卷提供的信息过多或过于复杂，那么受访者会无视问卷所提供的信息（Elcin,2011）。

本研究采取的应对措施如下：进行多轮预调查，反馈修正问卷；保证项目信息的透明度；提供替代品和互补品信息；适当提供社会媒体的观点进行引导。

3.2.2.9 起始点偏差

起始点偏差主要发生在逐步竞价法和支付卡竞价法中。最近的一些研究显示，封闭式双边界下的起始点偏差问题也应当引起足够的重视（Herriges and Shogren,1996; Veronesi et al., 2011）。在上述竞价方法下，设计问卷时应首先拟定一个初始投标点。但是，受访者如果对评估对象不熟悉，就会选择初始投标点作为参考，从而影响受访者最终出价的大小。通俗地说，受访者在前后两次询价过程中可能存在学习效应。理性的受访者完全有可能根据第一次的响应和第二次的投标值来修正第二次的回答。一般而言，较高（低）的竞价起始点相应地会得到较高（低）的平均支付意愿估值。起始点偏误主要源自锚定效应（Anchoring Effect）和认同偏差（Yea-saying bias）（Michell and Carson,1989）。例如，Herriges和Shogren（1996）在一项研究中发现，DBDC的锚定系数为0.36，从而造成了WTP的显著高估。遗憾的是，国内研究中迄今尚未有涉及这方面的研究。部分原因在于分析起始点偏差需要运用复杂的统计知识。

本研究采取的应对措施如下：设计多组起始点，在受访者之间随机分配。当然，这只是权宜之计，后续研究中应采用计量模型进行更为严谨的分析。

3.2.2.10 模型设定偏差

在CVM调查中，不同的询价方法所采集到的数据的格式及特征并不相同。例如，开放式询价得到是连续数据，而封闭两分式询价采集到的是离散数据。此外，无论采用何种调查方法都难免存在零响应问卷，从而会影响分布函数的选取。因此，对零响应数据的处理实质上也体现了模型设定问题。

以SBDC询价方法为例，现有研究大都采用BOX-COX线性效用函数模型或者非线性效用函数模型。前者主要包括Probit和Logit概率模型，而后者主要包括对数Probit模型、对数Logit模型以及Weibull模型等。但是，这些模型的共同缺点是其福利估算（WTP）表达式的理论取值范围是负无穷到正无穷，而没有考虑预算约束问题（Bohara et al., 2001）。此时，截断模型（Truncated Model）或受限模型（Censored Model）是更为合理的选择。

此外，在福利计算上也有中位数和平均数两种不同指标。从统计学角度来看，均值估计受WTP分布函数的峰度和偏度的影响很大。传统估计设定隐含的假设是不存在零或负支付意愿，这意味着实际WTP的分布函数存在“右偏”现象，导致WTP被高估。此外，均值估计还会受到右侧“厚尾”（Fat Tail）问题的困扰。与此不同，中位数估计受异常值的影响较小。从经济学角度看，均值估计与Kaldor-Hicks的潜在补偿标准（Potential Compensation Principle）相符，而中位数的理论依据则是多数投票原理（Principle of Majority Voting）。案例研究显示，WTP的中位数和平均数相差很大（如杜丽永等，2013）。

最后，无论是Probit模型还是Logit模型及其变形，均隐含地假设随机扰动项服从某种已知的函数分布形式。从估计方法来看，这些都被称为参数估计。一个自然的问题是，如果不清楚随机扰动的分布函数形式，那么又该如何处理？此时，半参数或无参数估计方法应该成为一种备选方案。有关CMV的模型设定问题将在第四章集中讨论。

本研究采取的应对措施如下：采用线性参数模型、对数参数模型以及非参数模型进行估计，并从经济学意义、统计学意义以及政策导向意义三个视角进行综合对比。

3.2.2.11 汇总偏差

汇总偏差包括两方面的内容：一是重复计算问题；二是市场范围问题。长江生态系统恢复所带来的生态效益内容很宽泛（如生物多样性、游憩价值、农业灌溉等），而在问卷调查时是分开进行的。因此，必须考虑不同价值是否具有可叠加性、是否存在重复计算问题。

此外，在估计总价值时必须对利益相关者进行识别。例如，白鳍豚从生物多样性角度看是纯公共品，其潜在受益者可能并不限于南京地区。整个江苏省乃至全国都可以成为其潜在的“市场”。但长江生态系统恢复对城市用水安全的改善却具有局部性，其市场范围局限在南京地区，在某种程度上也包含下游地区。从公共经济学的角度看，评估长江生态系统恢复的价值，理论上应该按照生态产品或服务的不同类别确定不同的市场范围，但实践上是否可行还需要进一步研究。无论如何，合理地界定目标总体是正确进行成本收益分析的关键。需要特别强调的是，汇总偏差和CVM本身无关，而是一个如何定义公共品价值的问题。

本研究采取的应对措施如下：选取与日常生活联系较为密切的几类非市场价值进行估算，同时根据属地特征识别利益相关者。

3.2.2.12 其他偏差

1．样本选择偏差

问卷本身和抽样方法如出现问题，则会造成样本选择偏差。由于我国的特殊文化背景，入户调查拒访率较高。一个更为现实的办法是在商业区或公园等公共场所进行偶遇调查。

本研究采取的应对措施如下：采用封闭式询价方法，共发放1700份问卷，回收1592份有效问卷，同时将样本特征和总体特征进行多方面的比较，以保证样本的代表性。

2．问题顺序偏差

问题顺序偏差指当问卷中需评估多种价值（如长江的游憩价值、生物多样性价值、农业灌溉价值等）时，若改变某一问题的顺序，则受访者的支付意愿会因评估对象的顺序发生变化而有所不同，从而产生不同的评估结果。

本研究未研究此项内容。

3．认同偏差

认同偏差指受访者可能出于道德满足等原因，会盲目地对所调查的内容表示认同，而没有考虑到自己的收入现状和预算约束。

本研究采取的应对措施如下：提醒受访者问卷选项没有对错之分，减轻其心理压力。

4．调查人员偏差

调查人员偏差（Interviewer Bias）源自调查人员。调查员的访问技巧、对问卷内容的熟悉程度以及工作态度等，对受访者都可能具有暗示或误导作用，从而影响受访者正常决策。

本研究采取的应对措施如下：调查员以南京户籍高年级本科生为主，并对调查员进行专业培训，提升其对问卷内容和调查流程的熟悉程度。

3.2.2.13 简要评述

需要指出的是，各种偏差并不是孤立的，有时候可能交叉，相互影响、相互作用。例如，假想偏差和策略性偏差之间具有互相抵消的关系。若受访者认为假想市场不真实，则不会存在策略性偏差；反之若有策略性行为，则很大程度上是因为“市场”的真实性较高。起始点偏差、支付工具偏差、零响应偏差、信息偏差等都可以通过优化问卷设计和调查过程避免或降低。但有一些偏差则和受访者的特质具有很大关系，例如策略性偏差。此时，最好的办法是通过问题设计将策略性行为者甄别出来。

最后需要强调的是，假想偏差始终是CVM最根本和最关键的软肋，是导致CVM被质疑的最重要的原因。假想偏差对于任何CVM研究都是不容忽视的关键问题。总的来说，各类偏差不至于对CVM的正确性造成本质上的影响。因为CVM是弹性很大的方法，许多偏差可以通过问卷设计与统计方法的应用进行评估，并且能将偏差控制在可允许的范围。此外，CVM偏差的存在并没有定论，并非所有的CVM研究都会有偏差发生。就多数政策分析而言，决策者可能更为关注的是估计值的范围而非精确值，此时CVM足以胜任。

3.2.3 降低CVM假想偏差的途径

检验CVM是否存在假想偏差主要有三种方法：一是将CVM评估结果和实际市场交易的价格进行对比；二是通过构建模拟市场，将CVM组与实际支付组的WTP进行对比；三是将假想市场行为和实际投票行为进行对比。其中又以前两种应用得最为广泛。国外学术界以实验经济学为基础的第二种方法，近年来逐渐成为检验CVM假想偏差的首选工具。然而，社会科学领域内的实验毕竟不同于自然科学，很难保证控制组和参照组是在“保持其他条件不变”的前提下进行对比的。CVM的捍卫者完全有理由质疑，实验所发现的CVM假想偏差究竟是由CVM方法论特征所致，还是应当归咎于实验设计本身的缺陷。

讨论假想偏差时以下问题可能更值得我们去思考：假想偏差在典型的CVM研究中是否存在？如果存在，偏差程度又有多大？影响假想偏差的因素又有哪些？WTP或WTA对假想偏差有何影响？不同的询价方法是否会影响假想偏差？对同一个体进行不同实验与对不同个体进行不同实验所得到的结论有无差异？实验室实验和田野实验的结论是否相同？公共产品和私人产品的评估结果又有何不同？更为重要的是，又有哪些方法能够缓解假想偏差？在多大程度上有效？

降低CVM假想偏差的常用方法包括事后处理和事前处理两类。以封闭式问卷为例，传统的CVM估值问题只提供“愿意”“不愿意”两个选项，即“要么接受要么拒绝”（Take It or Leave It）。但这样忽视了部分受访者的响应实际上介于“愿意”和“不愿意”之间，即存在不确定性。假想偏差的事后处理就是采用不确定性量表对受访者的响应进行校正。或者直接将不确定性内嵌于选项之中，或者是采用追问的方式询问其决策的确定程度。

事前处理主要是采用廉价磋商（Cheap Talk）等机制促使受访者和调查员之间达成某种口头协议。“廉价磋商”一词源于博弈论，是指参与人在博弈开始前进行没有媒体中介的、非承诺约束的、无成本或低成本的简单对话，然后按照预先商定的规则行事。 2005年诺贝尔经济学家获得者之一Robert Aumann的一个重要贡献就是与廉价磋商有关的“交互认知论”。尽管无法保证磋商一定能达成某种协议，或者即便达成协议也不一定会遵守，但事前磋商被证明是诱导博弈结果出现纳什均衡的有效手段（Aumann,1974）。

近年来，也有学者建议采用“时间措施”来降低假想偏差（如Whitehead et al., 1992）。其基本思想是，在进行询价时并不要求受访者立即给出答复，而是留给受访者一定的思考时间（Give Time to Think），时间间隔通常为隔夜（Overnight）。时间措施的合理性在于：一是可以消除当面调查时受访者存在的“取悦调查员”的心理动机；二是允许受访者与家庭其他成员进行商讨，其所做的选择更为可靠；三是受访者能够更为理性地考虑其家庭预算约束。

也有学者建议采用“留置问卷调查方式”（Drop-off Survey）来降低假想偏差（如Labao et al., 2008）。留置调查是指调查员至受访者家中访问，将调查事项解释清楚后留下问卷，日后再予以回收的方法。留置问卷具有和时间措施非常相似的优点，二者存在的共同缺点如下：一是很难保证是否是受访者本人填写问卷，可能会造成选择结果与人口学特征不甚相符；二是需要委托调查及回收问卷共两次访问，调查成本较高；三是调查地域范围有限，也不利于对调查人员进行管理监督。

在我国特殊的文化背景下，公众的社会参与度不高，入户调查的执行难度很高，调查对象或是心存疑虑，或是存在抵触情绪，或是消极作答。这就决定了时间措施和留置问卷方法在我国当前执行难度较大。