推论规则
尽管在过去20年中,“经验研究”(empirical research)才成为法学研究中的寻常事物,但是,只要法学教授们在作研究,那么他们的研究实际上几乎都是经验性的——利用定量数据或定性资料研究客观世界。不过,他们在进行研究时,似乎并不了解,更未遵守许多推论规则,并且也未曾留心汲取其他学科在过去100年间发生的经验分析革命的重要教训。传统的专业性学术期刊的一大特色,乃是收录一些纯粹的旨在研究经验分析方法论的文章,但是在美国法学期刊中,这种传统并不存在。结果就是读者们收获的并不是关于经验世界的准确信息,而是这些言之凿凿却过于自信的研究结论所表明的东西。为了补救这一缺陷,本文对自然科学和社会科学所使用的推论规则略作更改,并利用现有研究当中的大量例子来详加阐述这些规则,以切合法学研究领域的特殊性。本文还对如何重构法学院中的教学和研究资源配置提出了一些建议,以期在不牺牲其他重要目标的前提下,更好地推动一流的经验研究。
引言
社会科学和自然科学的研究涉及众多理论性的、方法论的和实体性的问题,法学界所产生的学术成果亦是如此。法律评论充满了各式各样的文章,既有规范性的,也有描述性的;既有对相对狭隘的教义学分析,也有大样本的统计学研究。一些研究倡导法律改革,一些研究则只是要为专业知识添砖加瓦。虽然研究进路、目的、效果甚至针对的受众都各不相同,但其中许多研究(哪怕不是全部)表现出了一个共同的特征:重视(哪怕是隐含地)经验主义——将结论建立在观察或者实验的基础上,以及重视推论——用已知的事实推导出未知的事实。
这种说法可能会令法学工作者感到困惑,甚至是纳闷。毕竟,在这个共同体之中,“经验”这个词的含义一向都是非常狭隘的,即纯粹关涉“统计方法和分析”或者定量数据。但是,正如自然科学家和社会科学家所承认的那样,经验研究比这种关涉所示意的还要宽得多。“经验的”这个词表示关于这个世界的证据,是建立在观察或者实验的基础之上的。这种证据可以是数值形式的(定量的),也可以是非数值形式的(定性的);二者同样都是“经验的”。一项研究要称得上是经验的,那么它就必须是基于对客观世界的观察,即资料(data),也就是关于客观世界的事实。这些事实可以是过去的,也可以是现在的;可以是基于立法的,也可以是基于案例法的;可以是访谈或者调研的结果,也可以是二手档案研究或者一手资料收集的结果。资料可以是精确的,也可以是模糊的;可以是相对确定的,也可以是非常不确定的;可以是直接观察到的,也可以是间接表现出来的;可以是人类学的、解释学的、社会学的、经济学的、法学的、政治学的、生物学的、物理学的或者自然科学的。只要这些事实与客观世界有某种关系,那么它们就是资料。只要一项研究包含了这种可以观察到资料或类似的资料,那它就是经验性的。
按照“经验”的这种定义,“理论的和教义性的学术研究数量……超过了经验研究的数量”这个说法,就会显得失实。因为,即便是对美国法律评论进行浮光掠影式的阅读,也必须承认,很大一部分法学研究的成果起码还是在观察或者实验的基础上提出的一些关于客观世界的主张。
事实上,说到法学研究成果,只有纯粹规范性或者理论性的研究,才能说它不是经验的。但是,许多文章,哪怕它们的主要目的是研究规范性,也经常会利用经验性论据来支撑它们的规范性论点。譬如,如果研究者采纳了论文所偏好的那种政策,就会产生相应的实证性、经验性的结果。斯坦特(Staudt)关于《国内税收法》的论文就是一个典型。在这篇文章中,一些讨论税法领域内传统观点——“家务不应或者不能征税”——的段落虽然可以说是对规范性的研究,但文章最后提出的几个主张显然是经验性的:“这场改革,和市场导向的改革一道,不仅仅会改变这个社会对家庭内和市场中的生产性活动价值的看法,而且更为重要的是,它代表着在让妇女得到更大的经济保障的进程中迈出了重要的一步。”
关于司法判决的大部分研究成果,包括许多针对某一系列司法决定或者其内在逻辑的研究,也是如此。斯克兰斯基(Sklansky)关于联邦最高法院使用“新原旨主义”来审理第四修正案所涉搜查与逮捕案件的研究,就是一例。该研究的主旨是论证这一主张:即使对那些通常愿意接受原旨主义的人来说,这种“新的”进路也是不可取的。但是,作为提出这种规范性主张的前提,斯克兰斯基必须先证明一个经验性的主张,即最高法院确实采取了新原旨主义的进路。而这种证明又需要一种关于真实世界的推论或主张,就像斯坦特采取的从“这个政策应该要改变”到“如果这个政策发生改变,以下问题很可能会得到缓解”的策略转移一样。
我们很欢迎这类研究。事实上,我们欢迎所有关注经验世界的研究,不管其关注是隐含的还是明确的。这些研究的生产方(法学界)显然希望看到并且有意产生更多这种研究。对他们——还有法律共同体的其他成员(包括法官和律师)——来说,如果相关研究基于对真实世界——包括死刑的实施、法院决定对执法部门的影响、破产制度中欺诈的原因、各种替代性纠纷解决机制的使用等话题——的观察提出主张或者作出推论,那么这些研究“可以在公共事务辩论中扮演重要的角色……并且能够影响到我们的政治系统将如何处理”诸多问题。至少,法学界正不遗余力地运用现有的相关研究:在过去20年间,法律评论对真实世界研究的引用率,几乎翻了一倍,即便对什么是“真实世界的研究”进行非常狭隘的界定。
与此同时,经验法学研究的现状却是很有问题的。这个主张主要是基于我们对法学类文献的检讨。检讨表明,不管这些研究设计有多少不同之处,但是许多人在研究过程中不知道,更没有遵守社会科学和自然科学经验研究理应遵守的推论规则。传统学科的期刊始终自觉地关注经验分析的方法论,否则,这些学科的学者就没法在知名期刊中发表他们的研究成果,也别想得到欲了解真实世界是如何运作的读者的关注。换言之,关注学科的方法论的文章,事实上在美国法律评论中几乎是绝迹的。因此,较之相关研究提出的言之凿凿却过度自信的结论,读者所获得的关于经验世界的信息实际远不够准确。
这是非常成问题的。因为法学研究的成果若被法官、立法者或者行政机关所采纳,就可能会影响公共政策。相比大多数其他研究,这种可能性更大,影响也更为直接。当这种影响力来自于评价某一公共政策的变革可能产生的后果、评估现有的公共制度的影响,以及会对真实世界产生直接影响的研究时,更是如此。
但是,即便法律评论文章中的总结性段落内容——经常是解决方案或者研究的政策寓意——被人们忽视,或者只能得到一些专家的注意,我们还是对法学研究的现状忧心忡忡。毕竟,抛开研究的目的、效果或者意向中的读者不论,学术界也有义务生产出可靠的研究成果。如果经验法学不遵守长期以来的推论规则,那么它就不可能履行这一义务。可惜,许多法学研究未能做到这一点。许多法学研究忽视了推论规则,而是运用说服和论辩的“规则”。这些“规则”在法学研究中确实有着重要的地位,但如果我们的目标是了解经验世界,那么就应另当别论。
造成这一问题的一个理由,很可能是法学教授所受的专业训练,以及由此形成的学术研究的一般进路。尽管我们教导博士生对他(她)所偏好的假说要经过所有可知的检验或者数据资料的验证,还要寻找所有可能与他(她)的理论相反的证据,但是我们却教导律师收集所有能够支持其假说的证据,而无须关注任何可能与之相矛盾的信息。律师如果将客户的利益看成是一种假说,那这位律师是不称职的;但如果博士生像对待客户一样为假说进行辩护,却无伤大雅。然而,当律师走出法院,像法学教授那样加入到了大学里师生聚餐时的公共讨论(在那里,真正重要的是真理,而不是某个特定版本的真理),如果他们只是为这些理论或假说作辩护(就好像它们是需要优秀代理人的客户),或者干脆不承认反对方或者完全忽视反对方,那是相当有问题的。因为在经验研究中,理论必须经得起最有可能的相反论据的质疑,才是最有说服力的。
但是点到为止就够了。在这篇文章中,我们的目的并不是要求全责备法学教授或者他们所产生的学术成果;而是要作出一种言之有物的贡献,这一贡献的目的在于缓解相关文献所存在的问题。为了做到这一点,我们必须按照法学研究特有的需要、理论和数据,借鉴社会科学和自然科学所使用的推论规则。为此,我们希望能够与这一共同体的各方人士对话。法学教授,由于他们经常提出关于真实世界的推论,很显然应该学习如何正确地进行经验研究。但是,同样很显然的是,有许多人并没有将这种注意力放在卓有成效的研究实践上。我们相信,我们所提出的规则和指导准则能够帮助所有人做到这一点,并且从长远来看,能够改善法学研究的质量,进而让法学教授可以对一种可靠的、有效的、普遍的、根本上更有价值的研究事业作出贡献。
同时,我们也想要鼓励大家更为自觉地注意法学研究的方法论,这种自觉的关注在法律评论——即使在进行一手经验研究的文章中——也几乎是不存在的。法律是非常重要的,它应该有一门分支学科致力于研究方法论问题,就像其他所有进行经验研究的学科那样。浸淫于社会科学、自然科学和物理学等学科的学者可以出一分力,但是一个完整的法学学科,不能指望其他有着不同目标和视角的学科去解决法学教授可能面临的全部问题。可惜,致力于改善、理解、解释或者调整推论规则的法律评论文章数目迄今为止一篇也没有。因此,除了精读本文之外,我们希望其他人能够尝试在法学研究成果中解释、借鉴或者使用推论规则,并多写一些文章讨论这个领域中的经验分析方法。
我们还希望,对于法律共同体中那些并不一定从事经验研究但肯定会用到经验研究的人(比如说律师和法官)来说,我们所提供的推论规则对他们有所帮助。比如,他们可以区分研究的良莠。初审法官,例如“多伯特诉梅里尔·道制药有限公司”(Daubert v. Merrell Dow Pharmaceuticals, Inc.)一案中的法官,不应完全依赖学科共同体的共识来评价专家在法庭上出示的研究成果的质量。他们还应该自己来判断这些研究,评价它们的可信度,评价它们使用的方法,并对它们的设计作出鉴定。有迹象表明,法官们正在尝试履行这些重要的职责。联邦司法中心1991年的一份调查报告表明,只有25%的法官声称他们在最近的审判过程中甄别了好的研究和不好的研究;截至1998年,这个数据是41%。我们不知道有什么法律评论的文章能够帮助他们将“好与不好”区分开来,并评估不同研究实践的确定性程度。本文旨在抛砖引玉,希望能够提高法官们进行区分的能力,以及进行区分而需要的必不可少的评估能力。
我们将分三步走,以实现这些不同目标。第一,因为我们承认我们的推论规则只能帮助那些并不知道这些规则或者没能遵守这些规则的经验研究者,所以第一部分一开始简短地记述了我们对美国法律评论所存在的方法论问题的调研。然后,在第二至第八部分,我们将相当多的注意力放在解释这些推论规则以及如何将这些规则用于法学研究。我们之所以这样做是因为我们相信,从事经验研究的法律学者有必要了解、分析、使用,并且在必要的时候学着扩展我们所提供的这些指导准则。这些规则不应只是被构建并贴到墙上或者在脚注当中炫示。不管在什么时候,不管在什么地方进行法学研究,它们都应该被阅读、内化并使用。第二部分讨论了经验研究的目标:收集并概述数据,并且作出描述性的、因果关系的推论。勾勒了研究设计的过程之后,在第三部分我们还详细阐述了与该过程的组成部分直接相关的规则,这些过程包括研究问题(第四部分)、理论和它们可以观察到的寓意(第五部分)、相反的假说(第六部分)。虽然通往有效推论的途径并不存在,甚至原则上不可能存在,但是遵守这些规则应该能够极大地增加经验法律研究的有效性和价值。
在结论部分我们提出了一些建议,这些建议是关于法律共同体应该如何重新组织这种研究和教育方式,从而更好地帮助产生一流研究,且不至于牺牲其他的目标,比如说训练职业法律人。该领域的机遇是相当有前景、非常激动人心的,甚至超过了其他走在前头的学术研究领域。我们将在第九部分对这一点稍加阐述,我们还就创造相关法律研究所必备的一些基础设施,提出了一系列建议。具体包括提升相关技能以开展对“真实世界”的调查研究,施行一种替代性的期刊管理模式,为数据资料的处理过程设立标准,以及关于法学研究趋向的一些建言。
一、经验研究的方法论难题
如果所有从事经验主义法学研究的学者都遵守了推论规则,那么对这些规则的自觉注意就显得多余。因此,在决定是否要写作本文的过程中,我们自己对当前美国法律评论中的经验研究进行了调研。我们的目的是要辨别问题在哪里,我们的答案是:俯拾皆是。我们发现,法律评论以及法律共同体成员所写的文章中的经验研究,充斥着严重的推论问题和方法论问题。
现在我们要说明一下我们是怎么进行调研的,不过读者应该明白,我们的目标是要改善法学研究,而不是指摘个别作者犯下了人人都会犯的错误。或许大家都爱看学术领域的相互搏击,但对本文来说这是无助于事且不公平的。在本文行文过程中,我们批评了许多人的研究,但只有当相关研究有助于我们提出对其他人有帮助的观点时,我们才会这样做。通常来说,这指的是例证推论规则,以及如何纠正违反推论规则的行为。事实上,对于本文的目的来说,最理想的文章并不是那些违反了全部推论规则的文章。从我们的视角来看,最好的例子应该是十全九美的文章——所差一美能够例证我们所要解释的规则。这样我们就可以用最简洁明了的方式证明遵守某一推论规则的好处。因此,读者应该理解,在这篇文章中我们详细讨论的大多数作品都是远超平均水平的,即便它们在我们所要描述的那一领域上有缺陷,也不管它们是出自初出茅庐的教授还是出自经验老到的教授之手,是出现在本国一流法学院所办的代表性刊物之中,还是四级院校所办的更加专门化的小册子之中。在该小节中,我们概括了我们的调研,不过没有附上明确的参考文献。要发现方法论上略有欠缺的例子是很难的。大多数违反某一规则的文章同样也违反了其他复杂地联合在一起的规则,所以从解释或者教学的角度来看此类文章并不适合拿来说事。
然后,我们开始广泛撒网,阅读了1990—2000年所有美国法律评论出版的231篇在标题中带有“empirical”的文章。我们之所以会调查这些文章,是因为就它们的题目来看,它们至少声称要基于对真实世界的观察进行研究。“经验的研究”显然是法学成果中的专用术语,许多在标题中用到这样提法的研究成果似乎有意将它们的工作看成是这种运动的一部分。我们一直用一种更加狭隘的研究策略来补充这一研究策略,这种狭隘的研究策略有意揭露并且评价某些最好的经验法学研究。这种收集工作还在进行当中,其中包括了1995—2000年6种一流法律评论(芝加哥、哥伦比亚、哈佛、纽约大学、斯坦福和耶鲁)刊行的文章。它还包括了50篇引用率最高(根据法律学术成果网络)的文章。我们还通过一种更有信息含量的方式在这些正式的清单之外加入了一些别的东西。例如,通过广泛地阅读法律评论,顺着引用文献,再滚雪球般地阅读。当法学界同仁知道我们在做这项工程时,很多人惠赐了他们的经验研究成果,或者向我们推荐其他研究成果。最后,我们检讨了四种同行评审的法律期刊(《法律与经济学期刊》、《法律、经济学与组织》、《法律研究》、《法律与社会评论》)中的研究,尽管法学中人是这四本期刊的主要受众,但这些期刊中的大部分文章出自社会科学家和商学院的教员之手。
很显然,我们并没有评估法学领域的所有经验研究,但是我们已经尽可能地广泛取材,因此取材大致上还是接近法律评论中所有经验主义研究的代表性样本的。我们还以几种方式深入地关注某些领域,这些领域的研究质量应该说是非常高的,因而就这些样本而言,我们的结论倾向于认为不存在方法论问题。
尽管如此,我们的研究结果还是不容乐观。法律评论中的文章确实参差不齐,一些文章比其他文章更符合推论规则,到目前为止我们所读的每一篇文章,至少违反了本文所讨论到的其中一条推论规则。既然每一篇文章都有可能进入到法院的案件、行政程序或者立法听证会,我们就可以想象这已经对公共政策(更别提对知识的发展)产生——或者仍然会产生——什么样的严重后果。
行文至此,我们并不是在暗示法律评论中的经验主义研究总是或者通常比其他专业学科的期刊中的文章还要糟糕。这样的比较没有什么意义。我们的观点仅仅是,我们的调研表明,许多从事经验研究的法学家——按照“经验的”标准释义几乎涵盖所有法学家——要是更熟悉推论规则的话,将会有所获益。在其他学科领域,一直有一些文章关注并且只关注方法论问题,从而让那些学科获益匪浅。我们也解释了为什么法学界没能跟着那样做。
许多法学教授对法学研究成果的评价,比我们的还要消极、极端。对他们来说,我们的调研结论和结果或许毫无新意。确实,法学界似乎有一条老传统,就是抹黑法学期刊中发表的文章。这么多年来,法学界曾经将这些期刊中的文章说成是“垃圾流”、“粪肥”、“人类根本读不懂”、“毫无说服力”、“垃圾科学”、“胡说八道”、“无聊、太长了”、充满了“与经验性的根据无关的断言”、太依靠“奇闻轶事”、“捕风捉影”和“公开的谣言”。
幸运的是,至少对未来的研究来说,以法律评论中的经验性研究成果来补救这一困难,也许并不像这些老调重弹的抱怨所暗示的那样需要激烈的或者戏剧性的措施,而只需要更为关注、更为遵从我们在下一部分将会开始阐述的推论规则就够了。
二、经验主义研究的共同特征
几乎所有好的经验研究都有两个特征。第一,研究者通常脑海中有一个或多个具体的目标,比如说收集数据或者作出推论。第二,不管这些具体的目标是什么,他或她都必须要遵守某些一般规则才能实现这些目标,或者至少能够以某种程度的信心实现这些目标。下面,我们将会细致地讨论这些特征。我们首先讨论经验研究的目标,然后再转到所有想要实现这些目标的研究者应该遵守的指导准则。
(一)目标
不管使用的数据类型是什么,所有的经验研究都试图完成三个目标中的一个,更为普遍的则是完成一个以上的目标:收集数据以备研究者本人或他人使用;对数据加以概括,从而更容易理解这些数据;作出描述性的或者因果关系方面的推论,让我们能够运用观察到的数据来理解我们将要收集的数据。
1.收集数据
法学界每天都在生产大量的数据。数百件案件被诉至法院或被法院解决,无数的决定被下发,数十份裁决被执行(或不执行),许多裁决还要接受立法和其他政策制定机构的审查。法律共同体成员出于工具主义考量,或许比其他人更倾向于确保这些事件的记录能够存在很长一段时间。说一个例子,我们有18世纪90年代最高法院的司法意见文本,但相比之下,在1984年之前整个国家却没有留存各选区内的总统大选结果。
但是,单纯地保存记录,尽管很重要,通常并不是开展经验法学研究的一个独立目标。经验法学研究的目标,应该要对这些信息进行转换或者收集,以便研究者加以利用。考虑下面所述李本(Liebman)和他的同事所作的研究,这一研究试图检讨州和联邦上诉法院的司法判决,从而评价死刑判决方面的错误程度。对李本团队来说,幸运的是这些案件所公布的司法决定有多种渠道可以获得(比如说,《联邦案例汇编》以及《东南案例汇编》)。但是没那么幸运的是,这些司法判决也就是那样了——这些司法意见来自死刑案件,但是没有按照有价值的特征予以系统化。系统化是李本团队承担的重要工作,他们使用了联邦和州案例汇编中的信息来创建数据库。在系统地收集其他属性之外,他们还将死刑复核的对象的名字收集在内(这一点《联邦案例汇编》也能做到),描述了受害人的细节,以及法院决定的根据(如果这个决定被推翻)。
在李本团队的例子中,收集数据只是其中一个研究目标,但并不是最终的目标。他和他的同事还像我们在下面将会描述的那样,对这些数据进行概括。由于大多数的研究者并不是为了收集数据而收集数据,而是在脑海中还有别的目标(概括或作出推论),Liebman团队也不例外。但是也有一些是例外,最著名的就是所谓的“多用户”或者“公众平台”的数据库。这些数据库背后的理念很直接:不是为了回答特定的研究问题而收集数据——比如说,有多少死刑案件是错判?只要收集足够多的数据,那么许多用户,即便是那些有着不同的研究计划的人,都可以根据这些数据作出推论。
除了向许多研究者开放之外,很多人都知道大型的公共平台数据库还有一种联接性(combinatoric)优势。要说明这一点,不妨考虑下一种分析数据的有用方法:列联表,即概括了与多种研究者关注的性质相关的信息的表格。例如,表1显示,就涉及美国政府作为诉愿人的案卷移送请求样本(获得支持或驳回)而言,最高法院的行动(同意移送还是不允许)会产生四种“单元”值:当联邦政府为诉愿人,最高法院同意案卷移送请求的数量(26),驳回的数量(0);当政府并非诉愿人,最高法院同意案卷移送请求的数量(85),驳回的数量(1078)。如果每一个变量都单独来看,这会增加更多的信息(比如,就诉愿人来看,政府作为诉愿人的比例是26/1189,其中授予案卷移送令只占111/1189)。
表1 联邦政府为诉愿人时最高法院下发调卷令的列联表
相关因素有两个,最高法院的行动以及是否涉及美国政府,每一个变量都有两类,这就产生了2∗2=4单元的信息。现在考虑下这一情况,有两组研究者想要研究导致最高法院发出调卷令的因素。一组研究的关注点,是评价联邦政府作为诉愿人时会有什么样的影响。另一组的关注点,是美国巡回上诉法院对于案卷移送请求相关争议问题的回答相互矛盾的话,将会产生什么样的影响。为简便起见,假设这些因素中的每一个都有两种类型:政府是或者不是诉愿人;上诉法院内部的冲突要么存在要么不存在。进一步假设这两个团队独自研究,针对两个独立的案卷移送请求样本,并且根据它们各自的兴趣点收集数据(团队1是联邦政府是否牵涉,团队2则是上诉法院是否有冲突),另外还有四个不重叠的因素(各自都有两种类型),也有可能影响最高法院是否决定下发调卷令。结果就是,对于每一个研究来说,列联表都可能会产生25=32的单元。但是,请注意,既然研究者是各自从案卷移送请求的样本中作出推论的,将一个样本的因素和其他样本的因素组合成一个列联表是不可能的。现在不妨考虑下,如果这两个团队通力合作,以同一个大型数据库中同样的请求为样本收集相同的十个因素,那么具有两种类型的十个因素就可能会产生210=1024个不同的单元,或者说,较之于两个相互独立的数据库,两队合作能够提供[210/(2∗25)]=16倍的信息量。
由于知道这些优势,社会科学家斯皮斯(Harold J. Spaeth)在大约20年前要求国家科学基金会(NSF)资助与最高法院相关的多用户数据库,这个数据库包括了1953年以来最高法院决定中的众多变量,包括从口头论辩的数据到诉讼当事人的身份,以及最高法院是如何投票的。在国家科学基金会的支持以及许多监督人员的指导下,斯皮斯开始收集和编码这些数据,最后建立了这个数据库。在20世纪80年代末,他向公众开放了这个数据库,以及使用这个数据库所必需的档案。从那时起,他每年更新这个数据库。目前囊括的数据,可以追溯到文森法院时期(1946—1952年庭审期)。
如我们预期的那样,斯皮斯已经有效地利用他的数据库来回答他自己的研究问题了,不过,其他许多学者也在用这个数据库来回答自己的问题。虽然李本团队的数据库最早主要是为了他们自己的研究才设计的,但如果他们开放了这个数据库,那么其劳动成果也会像斯皮斯的工作一样得到其他学者的有效利用。这样看来,斯皮斯和李本团队,以及其他许多人的数据收集工作,本身就是对学术共同体相当重要的贡献。我们完全应该承认这一点。
李本团队和斯皮斯的数据库之间还有另一个类似之处。这两个数据库的创始人都是根据公开的或者其他完全可以获得的渠道,获得他们的数据的。李本团队的数据来源是州和联邦的案例汇编,斯皮斯的则是美国案例汇编。这种方法很常见,但并不是学者——特别是社会科学家——进行数据收集的唯一方法。事实上,许多研究投票行为的研究,依赖的是研究者所创造的数据,而非从其他渠道获得的数据的。这些数据也许来自调研、访谈或者实验。
无论渠道是什么,对数据收集工作的评价,在很大程度上取决于研究者脑海中的目的。正如我们之前所建议的,学者往往不会将收集数据本身看成是目的。尽管如此,不管这个目的是什么,一些相当基础的规则还是适用的。首先,应该完整地记录观察数据的过程。这就是法院中坚持“证据链条”必须完整记录且不得断裂,在科学领域内的对等物。第二,数据越多越好。在几乎所有所谓的经验性用法中,数据越多并不会损害研究者的目标。我们将在第二部分和第七部分详细地阐述并解释这两种规则的重要性。
2.对数据进行概括
在关于消费者破产的研究中,诺伯克(Norberg)提出了两个经验性的问题:债权人是如何收债的?什么样的因素能够解释其成功或失败?为了处理这些问题,诺伯克开始对他所收集的数据进行概括,这些数据包括了1992—1998年美国密西西比州南部地区破产法院判决的71个以《破产法》第13章为依据提起诉讼的案件。表2详细地记录了基于诉讼主张类型的债权人个案收债情况,这个表格展示了债权人的收债策略。
表2 诺伯克汇报的个案债权人收债情况(单位:美元)
鉴于诺伯克研究的一个问题(“债权人是如何收债的”)需要从描述层面进行回答,因此诺伯克的做法——直接概括相关数据——是合理的起点。但是,即便研究者提出的问题无法纯粹用描述性信息——无论是定量还是定性的证据——来回答,其中一个重要的分析性步骤通常仍要求进行这样的概括。这是因为替代性的做法——在诺伯克的例子中,指的就是213种美元数值的列表(71个案件乘以三个种类)——是大多数人都没有办法做到的。我们甚至没有办法一次性地在头脑中记住这么多的数值,更别说同时对这些数值加以解释了。因此,为了能够理解并且告诉别人这些数据的含义,几乎所有的学生都会使用数据摘要,而不是以原始未加工的形式提出数据——包括定量研究中庞大的数值性数据库,或者定性研究中对任何真实的现象进行最长的、最细致的口头解释。
数据摘要可以采取很多种形式。就数值型数据而言,我们通常只对众多数值中的一小部分进行概括,这种做法可以事实上解释许多涉及统计学的专业领域。一些法学家经常会用到的简单的统计学,包括平均数、中位数、众数、范围和标准偏差。前三种是对主要趋势的测度,也就是说,它们能够告诉我们保险主张中的美元数值的分布情况(或任何其他的因素)。平均数就是简单的平均水平,比如表2中的9313美元就是保险主张中能够收回的金钱的平均数。中位数则是指样本分布中处于案件分布情况的中间位置的案例,也就是说半数得到抵押打包的债权人收到了高于3914美元的债,半数则收到少于3914美元的债。众数(诺伯克在其表格中没有用到这个)简单地说就是最频繁发生的值,也就是说,如果在诺伯克的优先权主张类型中只有三个案件,回收的债务有0美元、4965美元和0美元,那么0美元就是众数。其他的两个统计量——范围和标准偏差,是离散度或变化程度的测度,也就是说,它们能够告诉我们在多大程度上这些数据围绕典型的值分布。范围简单地说,就是每一个主张类型的最小值和最大值,比如说保险主张类型下债权人回收的最小金额是0美元,最大金额是66183美元。标准方差这个统计量,表示的是数值与平均数的差。
每一个数值摘要都会让读者感受到71个案件在每一种主张类型下的整体分布情况,但肯定也会省略其他的分布特征。举一个简单例子,请注意中位数包括了关于主要趋势的信息,但省略了关于变化情况的信息。换句话说,告知我们提出保险主张的债权人回收的债的中位数,并没有告知我们债权人偏离中位数的程度。它们是不是紧密地集中在3914美元附近的?而且,即使这个表格能够提供主要趋势和变化情况的测量标准,其他特征,比如说正态分布(分布情况与平均数之间的对称程度)或者来自个别案件的美元数值,就肯定无法反映在这个表当中。这一点不难想见,因为表2没有办法复现整个213个数字的清单,同样,213个数字构成的不同清单都符合表2所展示的数值型摘要。
在摘要过程中,有一些信息会消失,这个事实本身并不是什么问题。当研究者抛弃了有用的信息时,问题才随之而至。但是,在某方面无用的信息可能在其他方面却是有用的,所以我们就没有办法单纯地从报告的数字中得知其他人是否做好了摘要工作。
在一些情况下,数据的图解或者其他呈现方法可以表达正确的信息,而且不会丢失太多信息。这种情形并不常见,不过我们还是应尽可能地利用相关手法,比如诺伯克的数据的处理。我们可以不用像他那样用表格形式来呈现数据,我们可以用三种独立的柱状图来表示,这三个柱状图分别表示保险主张、优先权主张和一般主张的情况。柱状图能够直观地呈现整个分布情况。在诺伯克的例子中,就是每一类型下平均每一个案件债权人能够回收的金钱数额。
图1给出了一些例子:每一个柱状图的横轴代表的是一个美元值,竖轴代表每一个类别中的案件数量。在这种呈现形式中,唯一缺失的是每一个条状内部可能存在的美元变量,这些变量构成了所有的案件(条状的宽度代表投资者作的选择)。但是请注意收益。一些未能在诺伯克表格(换句话说就是他对概括性统计量的选择)中得到呈现的数据特征,实际上被证明是非常重要的。例如,我们现在可以看到(甚至比根据表2的计算更为清晰),在所有三种主张类型下,债权人所得到的美元的众数是0。这个事实所表示的一种意思是,中位数和平均数(诺伯克所提供的统计量)并不是这类数据特征的最佳摘要,因为它们忽视了零峰值(the spike at zero)。在所有的可能性当中,产生这些数据的过程被切割了:在债权人的主张中,一些因素也许能够解释债权人是否收到了钱,还有一些部分独立的因素解释了债权人能够收到多少钱(假设有部分钱会得到支付)。但在更为系统的分析下,这样的结果是否还能站得住脚?这是一个有趣的问题,但只有在我们利用某种方法——这种方法能够对数据加以概述同时又不会抛弃与研究目的相关的特征——抽取了关于分布情况的有用信息之后,这个问题才会出现。
图1 诺伯克数据的直方图
不管学者选择什么样的方法来呈现他们的摘要,或者他们决定摘要将包括什么内容,我们都要注意到:研究者不应该实质化(reify)他们的数据。那是因为,单一数值的摘要甚至未必能够准确地表示一个案件。所以,如果我们观察到12名陪审团成员有9名投票支持认定被告人有罪,我们不能从这个信息作出摘要说,平均每位陪审员有3/4的概率支持有罪判决。
尽管其中的道理可能很明显,但是奇怪的是法学家经常会实质化数据,特别是当他们试图要呈现“平均数”的“剖面图(profile)”,而不是各个组成部分的摘要时。在一份关于刑事案件陪审团是否应当对其给出的裁决承担责任的研究中,请看艾森伯格(Eisenberg)他们是如何呈现他们的数据的:
对一些不同访谈问题的回答,表明对陪审员裁判责任存在一种较为一致的态度。“平均每一位”陪审员理解并且接受了自己在裁决被告人有罪时所扮演的关键角色;陪审员并不认为法律迫使自己作出某种裁决;也并不认为法院有可能会推翻死刑裁决;陪审员还认为自己在死刑案件中的陪审职责在情感上是令人不快的。但在另一方面,陪审员并不认为自己所作出的任何一种死刑裁决,实际上极有可能得到实施。
事实上,艾森伯格他们并没有提供任何证据证明,该研究对平均每一位陪审员的“剖面图”准确地描述了多数陪审员、一些陪审员或者任何一位陪审员的情况。说到底,在该研究中,所谓的“平均每一位陪审员”(这和陪审员对某一个调研问题的平均回答是不同的),是研究者自己创造出来的东西。
这说明,如果正确收集、呈现并且予以理解的话,摘要性统计是描述大数据集的有用方式,而且经常是不可或缺的方式。同样的地,摘要通常在定性经验研究中扮演着重要的角色。在此,描述可以采取文字型摘要的形式。例如,当研究者试图要概括先例(也许包括两个、三个或者甚至更多的案件)与其关切对象的相关程度时。加拉卡克(Gelacak)一干人所作的调研就是如此,该研究主要关注联邦地区法院的法官是如何适用1984年《量刑改革指南》中的偏离条款(departure provisions)的。认识到这些法官可能会受到巡回上诉法院的判例法的影响,所以加拉卡克他们还调查了联邦上诉法院在偏离方面的“司法理念”。以下是他们对联邦第九巡回上诉法院做法的描述:
第九巡回上诉法院……在偏离审查标准方面是非常著名的,因为该法院对地区法院的偏离决定施加了非常严格的程序性要求。第九巡回上诉法院要求地区法院必须在卷宗中陈述偏离的理由,并且解释偏离的程度。第九巡回区严格地适用了这些要求,并且推翻许多判案法院未能提供充分理由的偏离行为,特别是量刑从严的偏离行为。
在这三种判决中,加拉卡克和他的合作者试图概括5个时间跨度在3年之内的案件所确立的原则。他们简要的呈现方法必定会省略这些案件中的许多细节,其中有一些细节被作者放到了相应的脚注之中。不过,倘若上段引文真的准确地反映了它所代表的案件,那么将一些细节放在脚注中的做法还是有用的,因为它还是保留了作者希望传达给读者的一些特征。
3.作出描述性推论
就像我们在前面讨论的那样,通过摘要来描述观察结果是大多数研究计划中非常重要的一部分。但是,这通常不是主要目标。目标其实是推论——使用我们所知道的事实,推导出我们所不知道的事实。推论有两种:描述性的,和因果关系的。
尽管研究者经常使用数据摘要进行描述性推论,但描述性推论与数据摘要是不同的。我们并不是通过概述事实来提出描述性推论,而是通过我们所知道的事实来推导出我们没有观察到的事实。要看到其中的差别所在,不妨考虑下米尔哈特(Milhaupt)和韦斯特(West)对组织型犯罪为什么会出现以及它对经济有何影响的研究。他们关注的是日本。为了解决这些问题,他们收集并且概括了日本1972—1997年的数据,并希望利用“日本经验”来了解“像俄国和西西里岛那样多样化环境中的组织型犯罪”。因此,他们希望能够作出两种描述性推论:(1)他们想要利用在日本收集到的那些数据摘要,推导出日本组织型犯罪的大致情况;(2)利用对日本的知识,来推导出其他国家的情况。
莱德曼(Lederman)也做过类似项目。她从特定法院(税务法院)在特定时期(1990—1995年)发布的案件中随机抽取了400个案件作为样本,试图回答一个一般性问题:“什么样的案件会进入审判程序?”对400个案件中的任何一件的概要,甚至对全部400个案件的概要,本身并不是研究的目的。对莱德曼而言,关键目的是帮助获知没有得到的数据——税务法院的所有案件,包括进入审判程序和未进入审判程序的案件,以及最终由法院判决的所有案件。
米尔哈特和莱德曼的研究之间存在重要的差别,但也共享着一个特征。在这两项研究中,研究者都试图要作出一种描述性推论。通过观察一个国家(日本)或者一个法院(税务法院)在特定节点的情况,以及收集相关的观察数据,他们试图通过一种描述性推论,来获知某个国家或者法院在通常情况下是怎么样的(不单单是他们所研究的那个时间阶段)。在此过程中,他们试图在对其中一小部分情况加以检验的基础上,概括出全部情况。也就是说,他们想要知道不在他们观察范围内的其他国家、其他法院或者其他时段是怎么样的。他们没有观察或者不知道的那些事实,有的时候被称作总体对象(比如,米尔哈特他们感兴趣的全部国家,包括日本在内)的特征。他们希望通过对样本(比如,1972—1997年的日本)的测度,以获得那些特征的要旨。
米尔哈特和莱德曼应明白这种区分是很重要的,因为在进行描述性推论之际,最重要的第一步就是辨别推论的目标——我们想要知道的事实。例如,所有国家的组织型犯罪情况,或者所有案件的处理情况。如果学者未采取这一步骤,就可能遭遇一个巨大的、装满了祸害的潘多拉之盒,我们将在第八部分对此详加阐述。此处要强调的是,未能遵守这一原则,可能会招致一些原本可以避免的批评。这就是布拉德利(Bradley)和罗森兹维格(Rosenzweig)对《破产法》的研究所面临的问题。为了支持研究的主要论点,即国会应该废除《破产法》第十一章,布拉德利对一些提出破产申请的上市公司作为样本进行了分析。这招来Warren不留情面的批评,后者提出了一个显而易见的问题:既然上市公司所涉及的案件还不到第11章所涉总体案件的1%,既然以往研究表明“破产领域内大型上市公司的情况和小型私人公司的情况有显著差别”,那么布拉德利和罗森兹维格是否可以根据他们的样本鼓吹一刀切的立法变革呢?对Warren来说,这个答案肯定是“不行”。研究者不能“主张他们的数据同样能适用于第11章所调控的所有企业”。
事实上,如果布拉德利和罗森兹维格的推论目标涵摄了所有提出破产申请的公司,那么沃伦的观点就是言之成理的。但是,如果研究者其实只是想要提出与上市公司相关的主张,沃伦就未免吹毛求疵了——但这并不是她自己的错。研究者,而不是读者,理应说清楚相关研究的推论目标是什么。如果这个目标对研究者来说太过模糊,或不够明确,那么研究者就应该想一想,如果他们可以花费的预算、时间和精力都没有限制的话,他们将怎么做。如果在条件允许的情况下,他们发现自己还是没有办法极其精确地搞清楚需要估算的数值,那么他们就应该从头开始,或者退回到更早之前的阶段去反思研究计划。确实,如果研究者对推论目标的辨识不准确,那么研究者就没有办法合理地评估研究计划,研究计划也就不可能成功。
到目前为止,我们提到的大多数研究都是依赖数值性证据的。但是,使用定性信息的学者也经常会做出描述性推论。请考虑在特定法律领域的案例分析。在许多分析中,研究者试图通过关注“少数……典型例子的”或者“关键的”案件,作出关于“法律的状态”的推论。但在许多案件中,研究者却未能说清楚自己想要作出什么样的描述性推论,而是经常依赖已有的“成串案件引证”(string citation),而这些引证充斥着“少数……典型性”案件。在检讨政府规制政党的原则时,布莱克(Black)就是这样做的。他宣称:“这些案件证明,以往法院干预各州对政党活动的规制,并没有明显地让大的政党较之小的政党得到更多好处。”我们从脚注中可以知道,“这些案件”是9个,实际只不过是所有此类决定中的冰山一角。其他作者为了深入分析这些“关键的”或者“典型的”案件,也使用了成串引证。为了证明最高法院的确在第四修正案上采取了斯克兰斯基所批评的新原旨主义的立场,斯克兰斯基检讨了11个案件,这11个案件来自最高法院在某个开庭期审判的与搜查及逮捕条文相关的54个(这个数字我们可以算出来)案件。这11个案件或者布莱克的5个案件是否是“典型的”或者“关键的”?在这种语境下典型性或者关键到底是什么意思?还有,这些案件是否足以或合理地代表了作者没有选取的其他案件?对此,我们不得而知。
我们知道的是:这几位作者隐含地(通过一连串的引证或者深入分析)认为描述性推论并不重要,但事实并非如此。布莱克也许想通过对5个关键或典型性案件的分析,告诉我们州的规制有一些值得重视的地方;斯克兰斯基则想通过对11个案件的分析,表明最高法院有意援引“新原旨主义”来解决第四修正案所涉案件。不过,我们也有可能被这种研究所误导。法伯(Farber)和Matheson研究过信赖是否一直与承诺禁止反言案件相关,希尔曼(Hillman)针对这一研究也提出过类似看法。尽管法伯他们指出在“关键性”案件中信赖已不复存在,从而对流行的传统观点进行了严肃批评,并且从长远来看创造了“新的共识”。然而,希尔曼在对所有1994—1996年判决的全部承诺禁止反言的案件(而不仅仅是“关键的”案件)进行定性、定量的研究后,得出了完全相反的结论:
分析家们业已指出,在胜诉的案件中,信赖其实是不重要的,因为它并不是承诺禁止反言的关键要素,法院总是会按照预期损失判赔。实际情况是,至少在20世纪90年代中期是完全与此不同的。证明存在信赖对于赔偿损失是非常重要的,但是赔偿金额却不一定就是预期损失。
如果希尔曼的分析是成立的,那么法伯他们的推论显然是有问题的。同样地,斯克兰斯基的研究最终也是如此。尽管我们并没有像希尔曼那样进行细致的分析,但是我们确实考虑到这样一个可能性:斯克兰斯基为了深入研究所选择的那11个案件并不是典型个案,甚至可能都不是关键案件,而不过是一些在他看来最显著的案件。按照“能见度”这一简单指标,我们对比了斯克兰斯基文章中的11个案件和作为总体对象的54个案件,即考察在法院作出决定之后案件是否成为《纽约时报》的头条新闻。我们的调查结果是非常有意思的:在斯克兰斯基分析的11个案件中,有9个案件(82%)是《泰晤士报》文章的主题,但是在54个总体对象层面,52%的案件都曾被报道。
这是不是意味着斯克兰斯基的结论——最高法院采取了新原旨主义——其实并不准确?不是的。即便他选择这11个案件,是因为在他看来这11个案件最为显著,但如果可见度与研究的变量无关的话,他还是可能会得出一个有效的描述性推论。但是“可能的”与“结论性的”不可等同,特别是斯克兰斯基并没有提供与此相关的任何论据或证据。此处存在一个问题,即我们无从知道他的11个案件能不能支持他所作的推论。
对斯克兰斯基、法伯和马西森(Matheson),还有其他人来说,如何才能够让自己的描述性推论更精确,不确定性更少呢?答案其实很简单:他们需要更加彻底地揭示自己自始至终是如何得出并观察数据的,从客观世界发生与研究相关的现象开始,到他们获得数据并认为这些数据是最终数据为止。比如说,如果我们能够确定布莱克观察所得的5个案件和他所推知的那些案件是相似的,那么这个推论就是高质量的。可惜,在布莱克以及斯克兰斯基的研究中,相关案件的选取仅取决于研究者个人性的、未公之于众的决定,因此读者没有办法评价推论的质量。
当然,有人可能会对这个观点提出一个合理的异议,即推论的质量可以通过看研究者的名声来判断。我们可以相信斯克兰斯基,因为他是一名杰出教授,供职于著名法学院(加州大学洛杉矶分校),但是布莱克却不是,他“只是”康奈尔大学的学生。不过,这种诉诸权威的做法和有效推论完全无关。一个不争的事实是,即便著名的作者比无名作者更少犯错(其实并无多少证据可以证明这一假设!),他们有时候还是会犯错。只有证据即观察数据的过程,而不是研究者的名声、工作、地位或者收入,才是严肃的科学推论的关键所在。
4.提出因果性推论
可以用来展示描述性推论的例子为数众多,因为作出描述性推论经常是研究计划中的重要一环,而上述例子仅仅是众多例子中的冰山一角。因果关系推论也是如此,例如,学者、律师或者法官想要知道一个因素或者一组因素是否会导致(或引起)某些结果的研究。具体研究主题如:最高法院在“米兰达诉亚利桑那州案”(Miranda v. Arizona)中所作的决定是否导致了供述率下降?旨在减少醉驾的法律(和其他类型的刑罚)是否导致了与醉驾相关的交通事故死亡率的下降?“谢弗林美国公司诉自然资源保护委员会案”(Chevron USA, Inc v. Natural Resources Defense Council, Inc.)是否导致联邦上诉法院更加注重行政机关对法律的解释?多样化的规则是否有助于当事人自行解决纷争?
这些论题所探究的,都是某种“事态”——我们视为关键性因果关系变量的东西在场或者不在场(在上述例子中,分别是最高法院的决定、交通法、纠纷解决规则)——是不是会导致某种“后果”或者结果变量(在上述例子中,分别是供述率、交通事故死亡率、遵从以及定纷止争)。可能的事态和后果可以被描述为具有不同值的变量,也就是说,它们是不同的:米兰达案存在还是不存在;供述率是上升、下降还是维持不变。
为了在法学研究中处理这些常见问题,许多学者观察原因变量发生变化前后会有什么样的差别。米兰达案以及谢弗林案的影响的研究经常采取这种策略。例如,阿普里(Aprill)在分析税收规制案件中初审法院和上诉法院的原则时,得出结论称:
谢弗林案并没有对行政机关和法院之间的权力平衡造成某些评论者所担忧的革命。它并没有影响法官在审查行政机关的规制方面所扮演的关键性角色。相反……谢弗林案可能会减少对行政机关的行动的遵从,因为它鼓励法院自己判断制定法的意义。
与此相反,舒克(Schuck)和埃利奥特(Elliott)根据定量证据指出,在1984年(也就是说在谢弗林案之前),法院维持行政机关的决定的比率是70.9%;在谢弗林案之后,这个数字上升到了81.3%。
这是否必然意味着,谢弗林案导致了司法机关提高了对行政机关的遵从呢?或者,像Aprill的研究所示那样下降了?当然不是。假设不存在谢弗林判决,事实上维持率也有可能上升或下降(甚至幅度会更大)。只有在谢弗林案之外的其他情况都维持原样的情况下,历史发生了重演(换句话说,在一种我们重新创造的历史版本中,最高法院判决了谢弗林案,而在另一种历史版本中,法院未曾判决谢弗林案),我们才能够确定整体的因果关系。假设,在没有谢弗林案的那种历史版本中,我们观察到维持率不变,但是在有谢弗林案的历史版本中,我们观察到了维持率有变化,那么我们就可以作出结论说,谢弗林案存在因果关系效应。
由于我们没有办法按照这种方式重演历史,我们就必须依靠因果关系的推论。因果关系推理同样是通过已知推导出未知。因果关系推论实际代表的是两种描述性推论之间的差异——当加入某种“刺激”(treatment)时(比如,引入谢弗林案),应变量的平均值(比如,1984年到2000年裁判的案件中,法官遵从行政机关的案件所占的比率)是多少,以及加入某种“控制”(control)时(比如,如果没有引入谢弗林案),应变量的平均值是多少。因果关系效应——因果关系推论过程的目标——就是这种差异,即当我们从一个不存在谢弗林判决的世界,切换到存在谢弗林判决而其他因素不变的世界时,法院维持率发生的上升或者下降程度。
当关键的原因变量表明刺激,以及当关键的原因变量表明控制时,如果想要获得应变量的值,就必须作出两个推论,因为这两种数量一般来说都是没有办法直接观察到的。但是,此处还有另一个复杂的问题:研究者只有在加入刺激或者控制其中之一的情况下才能够直接地估计司法遵从程度的真正数值,因为在真实的世界中,谢弗林案只有引入与未引入两种情况。许多人将之称为因果关系推论的基本难题。这确实是一个基本难题,因为不管研究设计多么完美,不管我们收集了多少数据,不管我们花费了多少时间、经历和研究资源,我们永远也没有办法作出确定的因果关系推论。两种描述性推论最多有一个可以建立在“真实的”信息的基础上,而至少有一个必然是“反事实的”推论。(当然,反事实的推论本身也是有帮助的。例如,如果我们想知道,倘若某些政策颁布之后世界会发生、将会发生什么样的变化。)
因果关系推论的基本难题,再加上进行描述性推论的所有困难,使得一些学者建议在研究设计的时候不要设定因果关系型的问题、假说和陈述,而只应使用相关关系或者关联关系的语言。例如,“谢弗林案似乎与司法遵从率的上升有关”,而不是“谢弗林案导致了司法遵从率的上升”。在某些时候,这就是我们的能力范围,尽管我们并不同意改变研究目标。不确定性无法消除,并不意味着我们不能或者不应该出于研究需要作出因果关系推论。法律研究者、律师、法官和立法者需要作出因果关系推论,因此放弃并且重新勘定研究目标并非合理的选择。而且,除了其他事情之外,法学家在产生有益的、与政策相关的研究主题方面也做得很好。因此,我们建议研究者不要由于因果关系推论很困难,就打退堂鼓。相反,他们应该尽可能准确地设定他们的问题,并且遵循科学家提出的关于如何减少不确定性和偏见的建议,同时告知读者在阅读他们的研究结果时会感受到的合理的不确定性。在本文中,我们对大多数这样的研究结果进行了概括。
(二)一般的指导标准
在第三部分和第八部分,我们详细解释了控制不同研究阶段的具体规则。下面,我们提供了所有的经验研究都必须遵守的指导标准,不管它们的研究计划是收集数据还是概括数据,是作出描述性推论还是因果关系推论,或者是二者的结合。事实上,这些指导标准可以适用于许多领域的研究计划及其不同研究阶段,这些标准合在一起差不多描述了思考经验研究的一般态度或者进路。在这一方面,我们注意到,社会科学系教师经常告诉他们的博士生一个故事,这个故事在法学界也被一再谈及:
你这位博士生的论文一旦发表,在某时某地就总会有一位研究生摆弄着一份画了黄线的论文便签,你的名字则被潦草地写在上头。你应预见到你所做的一切都将被审阅,你未提出的一些相反解释都将被检验,以及可以证明你错误的所有方法将被仔细采用。一定要意识到这一点。你要比这些毕业生更早进入这些领域。当你在作经验研究时,务必遵守推论规则。
下面的指导准则提供了留意这一建议的重要出发点。
1.研究必须是可以重复的
好的经验研究遵守可重复标准:其他的研究者应该能在不借助作者提供额外信息的前提下理解、评价、建立并且重复这一研究。这一规则并不是真的要求任何人都可以重复一篇文章或者一本书的结果;它只是要求研究者要提供原则上足以重复结果的信息——文章或书籍或以别的可以公开获取的形式。可惜,法学研究当前的情况几乎总是没能满足这一最基本的检验。
我们来看两个例子。第一篇是《解释担保信贷的模式》,作者Ronald Mann解释了数据收集的过程:
我设计了一套问卷,这些问卷的目的是尽可能近似地反映作为一个整体的主流市场。在借款方,我按照公司的大小、公司是否上市、公司的经营范围区分借款者。相应地,我访问了大型公司和小型公司的主要负责人,从两家上市公司资产排名前100的公司到几家小的、少数人持股的公司(包括一家未曾赢利的公司)。我还访问了几位借款方,这些借款方无一例外都是从私人借贷市场借钱的,还有一位借款方正在首次发行债券,还有几位活跃于国债市场的借款方。最后,我还访谈了不同经营范围的个体户,包括房地产、医药、工业模具、制造业、计算机技术与服务。在贷款方,我采访了本国经济中各大主要贷款机构——保险公司、银行、融资公司——还有一些私人性质的贷款者,它们也给客户提供大量的贸易信贷。
类似地,在《死刑判决中陪审团的责任:一种经验研究》一文中,艾森伯格(Eisenberg)团队描述了自己如何收集数据来回答主要的研究问题:死刑案件中的陪审员是否应该为他们所施加的判决承担责任?
我们对南卡罗来纳州的43个死刑案件中的陪审员进行了随机抽样,目标是平均每一个案件都能访谈四名陪审员。样本包括23个最后都判决死刑的案件以及20个判决无期徒刑的案件。该研究的案件构成了南卡罗来纳州自1986年《南卡罗来纳州刑事司法综合促进法案》制定以来到1993年夏天访谈结束为止的所有死刑案件……我们对访谈人员进行了培训,要求他们按照[51页]访谈工具进行访谈,其间总共进行了153次的面对面访谈……我们是在陪审员结束陪审活动之后而不是之前对他们进行访谈的。
尽管设计者在解释研究程序方面的努力值得赞赏,但是这些研究全都是无法重复的:其他的研究人员没有办法在不求助作者的情况下还原这些研究。在曼恩(Mann)的论文中,这一点特别明显。因为他未曾提供“负责任的个体”的定义,我们没有办法确定什么是他所说的“负责任的个体”。我们或许能够从他所罗列的受测对象中,推导出一种定义。但由于他的23个受测对象中有6名要求匿名,因此这种做法只是碰运气。而且,尽管Mann告诉我们他是从哪些公司类型中选择他的受测“样本”的,但他从来就没有告诉我们他是怎么从中选择具体的公司的。随机选择公司和他的书面描述是完全一致的(并且也许是无关的,除非借助其他的变量),基于曼恩的生活地域(这样对他来说比较便利,但却会有一些没有明说的偏见),或者基于公司的借贷策略(对哲学策略的推论也是有偏见的),或者是基于这些公司对研究者的态度是否友好(也就是说很可能会对那些公关更出色的公司有偏向)。这些策略之间的选择,可能会产生几乎任何一种经验结果。因此,除非曼恩明确描述了他的选择标准,否则读者就没有办法知道他是怎么进行研究的,进而也就没有办法看到其数据和推论目标之间的关系。因此,缺少这种可重复性的后果是,一些结论可能没有多少大家熟知的经验依据。研究结论有可能适用于作者所选择的公司,但是读者并没有办法评价结论是否适用于其他相关的公司。
这种可重复性的缺失在艾森伯格团队的研究中就没有那么明显了,不过后者也是有问题的。要明白何以如此,不妨想一想要复现他们的研究,研究者需要知道什么信息,但作者却没有提供这样的信息。部分清单包括:
(1)作者说的“随机抽样”是什么意思?他们是如何获得随机的数字的?是一种同等选择概率下的简单随机抽样,还是分层抽样,还是别的?
(2)他们是如何接触陪审员的?他们是否告诉陪审员他们在进行一项关于陪审员责任的研究?每一位陪审员各自接触了多少次,在什么时候作者会放弃继续接触?是用电话联系陪审员的,还是面对面交谈的?联系的双方是属于同一性别和种族的吗?
(3)“目标是平均每个案件都访谈四名陪审员”是什么意思?如果研究人员没有凑齐四名陪审员,那作者该如何继续这一研究?如果有超过四名的志愿者,研究人员是不是都要对他们进行访谈呢?最终研究人员联系的陪审员是不是就是那些觉得要对他们的决定负责,并且觉得聊聊他们的决定也未尝不可的陪审员呢?拒绝的比率又有多少?
更基础的问题是,作者是如何从516名陪审员(43个案件,每个案件12名陪审员)当中抽取出153个样本的呢?这153名陪审员和剩下的363名陪审员有什么样的差别?如果艾森伯格团队可以自由地选择样本,就可能会产生几乎任何一种偏见并且因此产生几乎任何一种结论。如果我们可以选择一种抽样方法,那么我们很可能会轻而易举地推翻这篇文章的结论。当然,真实的世界未必总是残酷,但是有时就是如此。经验研究中的证明责任总是在研究者一方。
艾森伯格团队的研究依赖于定量证据。但是“经验研究必须是可重复的”这一规则同样适用于依赖于非定量性证据的研究。在许多——也许是绝大多数——情况下,进行这类研究的法学专业人员甚至都很少提示别人自己是怎么收集这些证据的。斯克兰斯基关于新原旨主义的论文,以及布莱克关于国家规制政党的论文,就是这类例子。但是,还有其他许多代表性的研究同样没有告诉读者如何才能够重复它们的分析。我们很少知道:
(1)作者是如何审视相关的判例法,他们抽取样本的总体对象到底是多少;
(2)作者是如何选择案件的,他们又是如何解读这些案件;
(3)作者是如何将“关键的”或者“少数……典型性个案”与那些不重要的或者不典型的案件区分开来。
我们也可以对充斥于法律评论文章中的关于“立法性的”或者“制宪者”意图的分析提出类似的问题。以恩格尔(Engel)1999年的作品《第十四修正案的麦克洛林理论》为例,它主张:
[在City of Boerne v. Flores案中,最高法院]错误地强调司法机关乃是第十四修正案最终的解释者。尽管最高法院可能有最终的发言权,但是法院的解释却遮蔽了制宪者的如下确信:国会,而不是法院,才是第十四修正案最初的读者和主要的执行者。
为了提出这一主张,恩格尔(很大程度上)仰仗于历史性证据,这些证据摘自国会对内战相关修正案的论辩记录。尽管这种做法无可厚非,却是完全不可重复的,至少就恩格尔的做法而言情况就是如此。和其他许多进行此类分析的人一样,他完全没有告诉读者自己是怎么研究这些国会资料的。他阅读了多少此类论辩?论文所引用的材料,是不是就代表着“关键性”实践,还是“少数典型”段落,或者某种特定类型的完整的样本(换句话说,是根据公知的、大家都在用的规则选取的)?
为什么这类文献收集工作是进行经验研究的必要步骤,而不管研究的性质是定性的还是定量的?对此有两种回答。第一种集中在外行人评价研究及其结论的能力上。从广义上说,可重复标准的关键在于确保已经出版的研究本身,就足够让读者理解它能够提供什么,或者从此得出更进一步的信息,而不一定非得要相信作者的地位或声誉。可重复标准可以让经验研究超越对盲目接受权威人物提出的论断的做法,进行非理性批判的层次。
要注意到未能遵守这一规则,将如何影响我们对研究本身的评价。让我们回到艾森伯格团队对陪审员责任的研究上来。研究者对死刑案件中担任陪审员的人进行“随机抽样”,然后对他们进行访谈,在此基础上得出了如下结论:
我们发现大多数陪审员接受了死刑判决中的角色责任,尽管仍要注意到有少数人并未接受。大多数陪审员理解并且承认他们在判决被告人无期徒刑或者死刑的过程中扮演着主要角色。但是,没有办法轻易改变的信念,限制了陪审员认识到自己会决定被告人被判刑的轻重。陪审员们认为,被告人应该为从事了某种导致这一判刑决定的一系列行为承担主要责任,同时不相信大多数死刑案件会得到执行。
正如我们刚指出的那样,我们并不清楚艾森伯格团队究竟是怎么提出这些关于现实世界的主张的。例如,回想下描述研究过程的第一句话:“对南加州43个谋杀案件中担任陪审员的人进行随机抽样,目标是平均每一个案件有四名陪审员接受访谈。”我们提出的其中一个问题是,艾森伯格团队是如何接触陪审员的。
假设艾森伯格团队对我们的问题作了答复,重新写下了对自己研究过程的描述,而前面三句话现在是这样写的:
对南加州43个谋杀案件中担任陪审员的人进行随机抽样,目的是每一个案件有四名陪审员接受访谈。我们按照姓名首字母的顺序开始联系南加州所有死刑案件中的所有陪审员。我们告诉他们,我们在进行一项关于陪审员是否对他们的决定负有责任的研究。如果陪审员拒绝或者没有作出回答,我们就会跳到名单中的下一名陪审员。有一些陪审员并没有填写我们的调研报告,我们从公共记录中收集到了关于这些陪审员的信息共计34份,并且进行了我们下面将会报告的分析。结果表明,在许多可测量的方面,我们所访谈的那些陪审员都和我们没有访谈的陪审员非常相似。
如果有了上述研究者如何联系并选择陪审员的“新的”知识,我们是不是就会对他们的结果作出不同的评价和解释呢?答案很有可能是肯定的。我们可能会作出这样的结论,即至少他们原来的发现,有一些是完全可以预见到的。也许更为重要的是,我们可以提出这样的质疑,即由于他们的“抽样”带有明显的偏见,那么这些结果是否真的反映了现实世界。事实是,即使是最好的经验研究,也会在不经意间受到各种干扰因素的影响。鉴定那些我们已有的知识,是我们设法减少平偏差的最起码的作为。
当然,恩格尔关于第十四修正案的制宪者意图的研究也不例外。假设作者是这样描述其研究过程的:
在阅读了最高法院在Boerne案的判决之后,我觉得很沮丧。在我看来,大法官们和许多宪法学学者一样,在关注作为第十四修正案最终解释者的司法机构方面误入歧途。为了证明这一主张,我审阅了内战修正案的国会论辩。我只分析那些能证明我的沮丧是有道理的评论和草案。
当然,这样的陈述是很可笑的。没有学者会这样写。但是学者们是否会这样做,只不过不这样说呢?要回答这个问题,读者们需要准确地知道实践中是怎么做的,这样才可以决定什么值得注意,什么值得进一步研究,什么能够支撑公共政策。恩格尔的文章并没有告诉读者,他是怎么拣选他能够获得的大量历史证据的。因此,我们也不可能知道我们对他的做法的假设性描述,是否与他实际所做的并不相符。(如果是,那么我们当然可以对他的发现作出不同的解读。)因此,读者不知道该如何解读他的结论,除非不正当地借助权威和他的名声。可重复标准正是要防止这种情形。
这就将我们带到了我们之所以坚持学者公开他们的抽样过程的第二个理由:那些过程可能会,并且在大多数情况下确实会影响研究结论。不管艾森伯格团队用了什么样的抽样程序,都可能导致他们选择某些陪审员并排除某些陪审员。由于他们将结论建立在陪审员对自己访谈问题的回答上,那么排除了一些他们访谈过的陪审员并增加一些他们没有访谈的其他抽样过程,就可能产生完全不同的结果。对艾森伯格的研究,以及其他试图作出关于现实世界的主张或者推论的研究来说,情况也是如此。
2.研究是一种社会性的事业
对可重复标准的讨论所隐含的一个要点是,研究者是无足轻重的,或者用某些人文思想流派的话说,是“无声的”。他或者她的特征、名声或地位并不重要,以“我认为”或者“我相信”开头的句子也不重要。重要的是他或她对这些论文的贡献,对了解客观世界这一共同体或社会的事业的贡献。
这一指导标准如今适用于所有进行经验研究的人,这代表着思考方式的一个重要转变。很久以前,学者们经常是各自为营的。当时一些人取得了非常杰出的新发现。一些人则犯下了数十年来未曾被纠正的错误,结果虚度一生。进步或者知识的积累是非常少见的。学者们如今之所以在大学里齐聚一堂,并不一定是因为他们相互欣赏,而是有助于他们的研究取得更好的结果。这些年来,知识的进步取决于能通力合作、相互砥砺的学者们组成的积极的共同体。
大学和学院中的诸多学科的学者都同意这一看法,尽管并不一定指法学院中的那些人。尽管法学家似乎将教学看成是一种社会性的事业,他们很显然并不会这样看待他们的学术研究。或者,至少有各种迹象表明他们并不在乎。诚如前述,许多(如果不是绝大多数)法学研究违反了可重复准则。缺少这一准则,学术界的大多数优势也就丧失了意义。法学家或许讲究在脚注当中注明信息的文本来源,但是他们并不特别注意去证明他们的数据收集程序。并且,就如我们所指出的那样,他们也没有建立起这类程序来保证对数据或者(公共或者私人)数据库的必要关注。这种缺陷和许多同源学科构成了明显的对比。例如在政治科学领域,顶尖期刊《美国政治科学评论》就规定:
作者应该详细描述他们的经验研究程序,这样评审专家才可以理解并且评价他们所做的事情。文章一经发表,还可以让其他学者按照其他的数据集进行类似分析。例如,对调研来说,最起码要给出抽样程序、反馈率、问题设计;作者应尽可能根据美国民意研究协会给出的其中一个标准公式计算反馈率,即“标准定义:随机抽样下的电话调查或面对面的家庭调查下的案件编码与结果率的最终处理方法”。对实验来说,则要完整地描述实验方案、受测对象的遴选方法,以及与报酬、询问程序和其他相关细节有关的信息。文章应该包含足够充分的信息,作者不应让读者从其他的出版物中寻找这些基本研究程序的描述。
《政治分析》这一主流的经验方法论期刊,提出了一系列更为严格的可重复性要求:
《政治分析》中定量分析文章的作者应该在第一个脚注中指出,读者如果要重复文章中的数据结果,可以在哪一个公开档案馆中找到必要的数据、程序、编码或者其他信息。政治学与社会学研究大学公会(ICPSR)的“出版信息档案馆”是一个便利的地方,作者不妨将他们的数据寄存在那里。这一可重复数据库,连带别的你想要提交的证明性的材料(比如说附录、补充分析、交互性的网络指导等等),也会在《政治分析》的网站上发表。作者如果希望在公开发表之前有一段禁止流通期,可以与编辑商定。作者的研究如果依赖定性数据,也应该提交类似的脚注,以便在可行的时候提高研究的可重复性。通常情况下,我们建议作者在数据库中删掉私密信息,比如调研受访者的姓名。
而且,许多政治科学家或者设计他们自己的储藏室来存放自己生产的数据集,或者将数据和文献存放在公共档案馆中。这些做法是为了保证遵从一些期刊——例如《美国政治科学评论》和《政治分析》——的政策,以及全美科学基金会对所有获得资助者提出的要求:“自资金资助期到期之日起的一年时间内,在本基金协助下产生的所有数据集都应存放在项目管理人员所批准的数据图书馆中。”其他许多期刊,以及自然科学与社会科学领域内的资助机构,也有类似的政策,但在法学领域此类政策很少见。
对这一指导标准的冷漠还有一个迹象,那就是法学研究中缺少合作。尽管有人会承认经验研究是一种不需要在某一个具体的研究项目中进行合作的社会事业,但许多学术共同体的分支都承认合作研究的价值和回报。例如,在2000年全美科学基金会的政治科学项目名下的52个基金项目中,60%(n=31)是合作性的项目。对三大主流学科期刊《美国政治科学评论》、《美国政治科学期刊》、《政治学期刊》的一个分析结论是:“自20世纪50年代以来,多人合作文章的比率已经增加了7倍,如今几乎有一半的文章是多位作者署名。”全美科学基金会的一份涉及面更广的研究发现,在科学与工程学领域中,“来自不同机构的作者署名的科学与技术论文的比率一直在增加。在1997年,所有科学与工程学论文有57%署名多位作者,10年前只有49%”。相反,2000年6份主流法律期刊(芝加哥、哥伦比亚、哈佛、纽约大学、斯坦福、耶鲁)发表的162篇论文中,只有5%是合作产品。
第三个迹象是法学共同体拒绝通过圈内最富声望的渠道将论文递交给同行盲审,而是喜欢将评审的任务交给法学院的学生。在法学院之外的其他科研机构任职的大多数学者要是听到这种说法,会对这一有组织的决定感到惊讶。因为学者们已经意识到,让自己(或者法学院的学生)不切实际地相信自己产出了重要的研究成果是相对容易的,但要哄骗——不管是不是无心之失——那些花了大半辈子时间研究相关问题的专家共同体就会难很多。这就是为什么在几乎所有其他学术领域中,最负名望的期刊都采取同行评审制而且经常是双重盲审制。换句话说,不管是作者还是评审专家都不知道对方的身份。后一种特征减少了作者的地位或者声誉成为评价其作品的可能性因素,而这恰好就是学者们对学生编辑的批评:在论文遴选时过于看重作者的地位或声誉。
我们还可以鉴别出别的迹象,但是不应该忽略下面这个一般性观点:不承认“研究是一种社会性事业”是所有法学院的问题。鉴于这极大浪费了法学家的努力,这篇文章的结论旨在建议法学院及其教师如何与其他学术圈形成联盟,并从建立一种学术共同体中获益。正如我们所揭示的那样,法学共同体所独有的集体性规范,或许能让它尽快地赶上甚至可能超越其他学术圈中的研究标准。
3.研究中的所有知识和推论都是不确定的
在一篇讨论非法证据排除规则的成本及影响的论文末尾,佩林(Perrin)和他的同事毫不含糊地指出:“我们的研究确认……非法证据排除规则其实并没有遏制警察的不法行为。事实是,在涉及警察欺诈行为的领域内,它促进了不法行为。”菲舍(Fisher)在一篇分析辩诉交易数量增长的论文中认为:
由于检察官希望减少自身沉重的工作负担,并偶尔获得轻而易举的有罪判决,辩诉交易只限于检察官的定罪量刑的权力……在19世纪中叶之前,辩诉交易就偷偷地扩张到了辩诉交易过程的档案记录形式,除非检察官在程序上提交了辩诉交易的档案,否则法院就没有办法认可量刑。在那里,辩诉交易的进展有可能受阻了,因为检察官的定罪权已经稍稍扩展了。
之后,在19世纪最后的25年,法官发现他们自己面临着破坏工厂机器引起的大量新型、复杂的民事诉讼。他们别无选择只能与刑事法院的新秩序达成妥协。他们接受了辩诉交易,并交出了相当一部分的定罪权。如今,在两个强有力的法庭“主顾”(控辩双方)的支持下,辩诉交易很快就变成了刑事诉讼程序中的一股主导性势力。它将不确定的判决推到一边,并且扶持了这些制度,例如缓刑和公设辩护律师。辩诉交易最终在权力的厅堂中如此根深蒂固,以至于在今天,虽然它的主顾会以不同的方式瓜分它的战利品,但它已经达到无可复加的地步了。因为辩诉交易已经获胜了。
类似地,谢弗(Shaffer)在分析第十四修正案特权与豁免权条款的涵盖范围时主张,根据诸多证据都可以得出结论:“这一条款……除了提供了明确的、无可争议的赞颂美国人宪法意识的权利之外,未曾为任何实体性权利提供依据。”
即便上述所有作者都遵循我们所提供的、控制经验研究的全部建议(当然他们并没有遵循),其论文所展示的推论的确定性程度,仍然是有待论证的。因为所有经验研究——事实上也是所有严肃的推论理论——的一个基本前提,是所有结论在某种程度上都是不确定的。毕竟,我们所知的事实与我们所不知道的事实是相互关联的,我们想要弄明白后一种事实,就必须依靠一些我们无法完全确证的假设。
问题的关键并不是要限定每一种陈述,例如将“我确定”改为“我相当确定”,而是要估计每一种结论当中必然存在的不确定程度,并在作出每一个结论之际,告诉别人这种估计。许多统计学研究的推进过程,都伴有对不确定性的正式估量。但是,如果说这种研究是定性的,或者尚不清楚如何估量不确定性,那么对策之一就是找出推理链条中的薄弱环节——建立在最少的经验证据基础上或者最容易受攻讦的那部分论证。换句话说,鉴别出研究者所收集的哪部分证据“数量最小”;并且,如果改变这部分证据,可能会导致读者或者研究者推测这一研究所得出的结论是错误的。这部分证据所能提供的证明力,就是结论的不确定程度的一个测度。
要理解这一点,不妨考虑下舒克(Schuck)和埃利奥特(Elliott)所作的研究。这一研究试图评价以下传统观点:20世纪60年代的法院“遵从”行政机关,在20世纪70年代“严格审查”时期则没有那么遵从,然后在20世纪80年代又开始回归适度遵从的立场。为了评价这一传统观点,研究人员审视了上诉法院在1965年、1975年、1984—1985年裁判的案件。图2描述了他们发现的法院维持原判的案件所占比率(也就是遵从行政机关的比率)。正如舒克他们指出的那样,这一数据似乎“与传统观点相反”。因为传统观点可能会预言,1975年维持原判的比率会低于1965年或者1984—1985年。但是,他们或者我们对这个结论有多大程度的确信呢?
图2 Schuck和Elliott报告的维持原判的比率
为了回答这个问题,我们首先要指出,尽管这是一份定量研究,但是许多定性因素还是影响了其数字的产生。具体而言,作者是根据各种不同的标准来编码的。我们只需要考虑这些决定的其中一个结果、一小部分证据,例如1965年的数据,然后问一下,如果这个数据不是55.1%而是75%,那么我们会得出什么结论。(我们之所以选择75%是因为,正如舒克和埃里奥特自己指出的那样,来自美国法院行政管理办公室的公共数据与他们1975年/1984—1985年的数据是相符的,但这个数字却和他们1965年的数据相反)。如果说这个数字真的是75%,那么我们可能就会觉得传统观点是对的,舒克和埃里奥特是错的。至少,我们可能会质疑研究人员是否能够得出肯定的或者几乎肯定的结论,因为围绕这一结论的不确定性实际上完全取决于这一编码决定以及这一单一数值计算的有效性。
我们也可以将上述逻辑应用到舒尔茨(Schultz)与皮特森(Petterson)的研究上,他们考察了法院如何回应第七条“种族与性别歧视”案件中的“缺少利害关系”辩护理由(the“lack of interest”defense)。表3表明了他们所报告的答案。
表3 舒尔茨与皮特森所报告的,在回应缺少利害关系辩护理由的案件中原告的胜诉率,以种族、性别和时期为变量
他们得出结论说,这些数据反映了一个“惊人的趋势”。例如,“自20世纪70年代晚期以来,种族歧视案件的原告方所提出的缺少利害关系辩护理由很少能够胜出”。相应地,他们的这篇文章花了很大的篇幅来解释这一“趋势”。
但是,它真的是惊人的吗?也许不是。因为我们可以彻底改变舒尔茨与皮特森的结论。如果(1)假定1978年到1989年期间所有12个败诉案件其实是发生于1978年和1980年的,并且(2)将这些败诉案件放进重新设计的数据分类当中(1967—1980年)。因此,根据这篇文章所提供的信息而言,表4也是可能成立的(尽管是根据极端的,但仍算合理的假设所设计的)。可惜的是,目前不管是通过公开渠道还是从作者那里,我们都没有办法拿到相关数据,因此无法予以确认。我们知道的是,正如表4所表明的那样,种族歧视案件的原告的胜诉率提高了,而不是降低了。因此,舒尔茨与皮特森研究结论的有效性,以及读者赋予他们的结论的确定性程度,完全取决于我们是否相信其数据的另一种集合或者表现形式不会推翻他们的结论。
表4 在回应缺少利害关系辩护理由的案件中原告的胜诉率,以种族、性别和时期为变量,根据表3对舒尔茨与皮特森的数据进行重组
到目前为止,我们所讨论的研究主要依赖于数值型数据,但同样的教训也适用于定性研究。回想下夏弗的文章——这篇文章得出了“肯定的”结论,即制宪者无意让特权与豁免权条款成为“为我们的宪法文本编织新花样”的工具。并考虑一下作者为支持这一主张所援引的部分证据:起草这一条文的国会联合委员会成员的评论。(就像夏弗概括的那样)现在假设委员会主席John Bingham没有公开地“详细表述……他的……立场,即作为整体的这一修正案,以及就这一条文而言,明确地保障已经默示地认为存在,但只有州才能够违反的权利”, 而是说:“作为整体的这一修正案,以及就这一条文而言,明确地保障已经默示地认为存在,但只有州才能够违反的权利,以及新的或者后来产生的实体权利。”当然,这样一个微小变化可能就会让夏弗更为谨慎。对身为消费者的我们来说,宾汉姆在多大程度上可能会作出这样一种表述,是衡量作者的结论的不确定程度的一个方式。
三、设计经验研究:符合固定标准的动态过程
不管研究者是否依赖于数值型证据,还是有规则可以改善研究设计的每一个组成部分——研究问题、理论及其表现出来的寓意、相反的假说、测量方法和评估、选择观察。并且,我们可以在下面五个部分中详细予以阐述。在这样做之前,可以作出两个言之成理的一般性评论。首先,研究者不应该认为自己的研究设计是绝不能违背的、独一无二的机械式程序。恰恰相反,学者的思维应该灵活一点:允许推翻陈旧的思考方式,问新的问题,必要时修正自己的蓝图,收集比原计划更多的(或不同的)数据。也许在收集了研究设计所要求的证据之后,学者们会发现主要的研究问题与理论并不契合。研究人员没有必要丢弃经年累月的工作,他们应当回到研究规划上,设计更恰当的程序,甚至重新界定原来的研究问题。实际上,研究者经常会发现数据与假设不相吻合,他们立即就会看到一个新的假设,这个假设明显能够解释在原假设看来反常的经验结果。
承认这样一种新的看待事实的方式,就是我们所说的“灵活”。我们并不是说研究者应该为了个人喜好,而在事前或者事后对理论加以修正。我们不能自欺欺人地认为,为了让理论与数据相吻合所作的调整就是对理论的确证。不是的。确证一直与弱点相伴:持续地对一个理论进行事后调整,确保了理论永远都不可能是错误的。尽管利用来自数据的洞见不失为提出一种理论的好办法,但是研究者应该参考新的数据集,或者参考理论在同一个数据集中不同的、之前从未预见过的可检验后果,才能够得出结论说数据确证了自己的理论。
这就是为什么我们认为开展经验研究乃是一个在一套稳定的规则结构中发生的、动态的研究过程。借此我们可以得出第二个要点:在将完整的研究付诸实践之前,研究者应该努力改善他们的蓝图。即便是最好的设计,有时在研究人员收集了第一批少量数据之后也会瓦解,因此我们建议法学界应该按部就班:收集第一批数据,然后考虑下这个数据是否符合研究问题和假设。如果不是,他们或许就要重新思考下他们的预期。但更有可能的是,他们会慢慢看到他们原本想要收集的那一类数据,同样不适合回答他们一开始所想的研究问题。
四、被研究的问题
我们认为,这篇文章的大多数读者有着他们想要回答的问题,他们希望别人能够回答这些问题,或者他们希望评价对某一问题的答案。因此,我们没有必要展开讨论法学界的人是如何提出问题的。需要解释的是,更好的研究问题必须符合的两个标准:它们对现存的知识有某种贡献,并对现实世界有某种意义。每一个标准都是下面每一节的主题。
和这些标准同样重要的是,我们承认学者和其他人对法律现象所提出的许多问题并不符合这些标准。从一方面来看,这不算什么问题。研究者可以对任何问题展开严格的经验研究,不管这种研究多么狭隘,不管是不是只有他们对这种研究感兴趣,也不管这种研究是不是真的对现实世界毫无影响。另一方面,如果分析者能够推动共同体的成员——不管是其他的学者、决策者或者二者皆有——对其研究产生兴趣,那么分析者就能够更好地回答这些问题。其中的理由又涉及我们在第一部分所提出的观点:经验研究是一项需要通力合作的社会性事业。作为个体的研究者如果提出了能够吸引其他人兴趣的研究问题,就更可能完成他或她的最低目标。致力于研究这些计划也是一个好的职业建议,但促进研究共同体的形成,通常是这一建议在一开始就被给出的理由之一(并且它应该继续被给出理由),因为这样我们所有人才能够更好地完成我们的目标。
简要地说一下下面两条学者和其他人可能会选择忽视的规则。他们可以将注意力放在非常窄的问题上,这些问题只有少数人或者甚至只有他们才会感兴趣。如果他们选择这样做,那么遵守本文提出的其他规则将会帮助他们更好地回答问题。但是遵守下面两条规则,也可以使研究更为可靠,研究的结果更加确定。
(一)对学术文献的贡献
尽管许多法学家已经理解了这一指导准则的重要性,我们还是意识到它至少会让某些人感到不快。他们可能会说:“我们处理的是现实世界的问题,难道这样还不够?”答案是否定的,原因至少可以列出四个。其中一个原因,即经验研究是一项社会性事业,就不需要我们再多费唇舌了。不过另外三个原因则需要详加解释。
首先,找到一种适合参与学术研究这一社会事业的方式,能够尽可能减少拥有相关知识的,甚至是没有相关知识的读者质疑研究人员在他们所分析的相关领域内是否“代表最高水平”的可能性。换句话说,遵守这一规则可以提高研究的可信度。但是更为重要的是,回顾以往的研究,可以帮助学者避免犯错,避免毫无意义的重复研究,以及发现其理论表现出来的新寓意。1998年《纽约大学法律评论》上有一篇文章说:“到目前为止,就法官的‘案件裁判行为’而言,公共选择理论已经没有什么可以说的了。”但是在1998年之前仍然有不少文章和书籍引用公共选择理论(或该理论的某些变体),这种说法就未免误人子弟,且很可能损害这篇文章的研究价值。在某种意义上,是否引用应该与作者是谁无关——除非这种引用有某种后果,通常来说也确实会有某种后果。虽然《纽约大学法律评论》的论文作者当然算是法学共同体的成员,而且他们在其他著作或者在同一著作的其他部分不会犯下相同的错误,但就这一问题而言,他们在实际研究中并没有参考那些可以帮助其实现目标的海量文献。在法学教授关于公共意见的研究方面,罗森伯格(Rosenberg)就给出了一个相关例子:“法学界一直主张司法制度有能力影响公共意见,他们经常不加批判地引用罗斯托(Rostow)或者比克尔(Bickel)。但是,在司法意见的公共知识方面,有一个经验研究并未支持这些主张,但它从未被引用。”
法律评论上发表的许多研究都普遍存在这个问题,以至常常招致诸多外部学科学者的强力抨击。巴尔(Baer)评论堪称典型:“我发誓,再不会去读一位完全忽视所有政治科学家相关工作的法学教授所写的书了……”格雷伯(Graber),一位拥有法学学位的社会科学家,也说:“我们绝对没有办法从[法学研究]中知道……原来[社会]科学对宪法理论、原则、历史和政治的研究方面居然还有这么多的文献。”正如格雷伯指出的那样,尽管研究美国宪政的社会科学家出版的著作不太可能“显现对专业法学发展的无知,而专业的法学巨擘却经常显现对于研究宪政的政治科学家的研究进展的无知”, 反过来却不成立。但这本应该成立的。更为重要的是,在步入以Lexis、Westlaw为代表的时代,闭门造车的研究很难说是合理的。其他许多学科的期刊网络渠道都已经向大众开放,不少知识渊博的学者以研究与法律相关的主题为己任。
整合相关文献的第二个好处,是减少重复工作,也就是“重新发明轮子”的可能。这并不是说,学者一定要避免提出和别人一样的问题,重新分析相同的数据,或者追求看待同样问题的新视角,或者用新的数据来解释这些问题。而是说,如果说他们所处理的是现存的问题,那么他们就必须考虑既有研究的经验教训。未能做到这一点,不单单是浪费精力,它还可能会减少“新的”研究像已有研究那样的成功机会,因为实际上研究者忽视了已有研究所收获的集体智慧。
要理解何以如此,不妨考虑下佩林(Perrin)及其同事所作的研究。在这一研究中,研究人员对加利福尼亚文图拉市的警官进行了调研,前者希望解答以下问题:非法证据排除规则的实际效果和成本是什么?研究者实际承认,现存的一些具有显著性的研究工作和他们的问题相关。这很好,因为即使是敷衍地遵守我们的建议——“研究应该对学术研究有所贡献”,也可以回应我们对1998年《纽约大学法律评论》一项研究所提出的批评。但这还不够。研究者必须考虑以往研究的经验教训——既包括他们的成功之处也包括其缺陷,这才叫完全遵守了这条规则。佩林及其同事原本应在这个方面做得更好。他们自己承认,在总结评论哪一项研究“显然对证据排除规则研究得最为彻底”时,他们指出是奥克斯(Oaks)所作的研究。奥克斯不赞成将华盛顿和芝加哥在排除证据的动机方面进行对比,因为他相信“这两个城市的刑事司法制度存在重要的差别,这些差别非常惊人,以至于没有办法进行有意义的对比”。但是,奥克斯的研究准则——“将华盛顿和芝加哥的刑事司法制度区分开来的相同的或者不同的特征……也许也可以将文图拉市与其他所有美国司法管辖区区分开来”——却被佩林及其同事忽视了。在佩林他们的研究的末尾,他们毫不迟疑地越出他们的案件,声称自己确信“这一规则未能尽到威慑的功能,而且这个规则对社会和这个制度施加了高昂的成本”。
最后,遵守如下建议,即研究应该整合既有学术成果能保证某些人对研究结果感兴趣。毕竟,假设存在大量的研究文献——不管多么薄弱或者不成熟,那就表明了至少这个问题对其他人来说是很重要的。通过让其他人也感兴趣,研究者就可以惠及别人,其他的研究者更有可能检讨他们的研究问题、从新的视角检讨他们的证据,或者引入某一个紧密相关的问题的新证据,结果就是产生与共同关注的问题相关的更为确定的知识。
当然,这并不是说学者就一定要问和别人一样的问题,而只是建议其研究应该对某一特定的研究领域有贡献、有联系,或者让其他人觉得有意义。这种贡献或许是:(1)提出法学共同体觉得很重要,但未曾得到其他学者处理的问题;(2)尽力处理答案相互矛盾的问题;(3)提出一个“古老的”问题,但用独特的方式来解决这个问题;(4)在可识别的同一寓意或者各种不同的寓意的基础上,收集新的数据;(5)用更好的方法重新分析现有的数据。
(二)进行对现实世界非常重要的研究
这个规则不需要说得太多。在我们提出的所有规则中,这条规则已经为许多法学家所理解,而且可能比自然科学和社会科学领域的一些学者的理解更深刻。我们对法律评论文章的调研表明,法学研究提出的问题,很少对现实世界没有任何影响——规范的、政策或别的。其实,许多法学研究的结论,都努力想要厘清这些寓意的本质,通常就是法院、律师或者立法者未来应采取的方式方法。
要落实这些建议,法学家能够提出且实际提出的研究问题的范畴,是非常广泛的。一些问题关心的是“书本上的法律”,问的是法院是否“正确地”作出了决定(这里说的“正确地”有不同的定义,可以是与现有的先例、立法意图、文本的直白含义等等保持一致)。列文森(Levinson)论第二条修正案的论文,就是一个例子。他问道,法院所下的判决认为该修正案仅仅确立了一种集体权利的,这是否符合该修正案的文本、该修正案通过时的历史语境以及宪法的结构。
其他问题关心的是“行动中的法律”,它们问的是一份法院决定或者法律,是否具有其创造者或其他人所预期的效果。例如海托华(Hightower)的研究,主题是J. E. B. v. Alabama的影响。在该案判决书的异议意见中,斯卡利亚(Justice Scalia)大法官不耐烦地指出:
[将Batson v. Kentucky一案的判决效果扩展到性别领域]会导致大量的附带诉讼,刑事案件的被告人(他可以在任何时候、毫无成本地提起诉讼)尤其想要这种诉讼模式。尽管人口的实际情况限制了基于种族挑战的案件数量,但是每个案件都可能会包含一个基于性别的诉讼主张。
海托华的问题是,斯卡利亚的担心是否为真:J. E.B.案是否产生了大量的附带诉讼?这些仅仅代表法学界可能提出的非常符合以下规则的两种问题,即研究内容对各种各样的内部或者外部需求者而言是重要的。列文森在其文章末尾很清楚地说明了这一点,他写道:“一直以来,法学界的大多数人都认为第二修正案不是很重要……这种情形难以为继。第二修正案应该受到法学界全体同仁的重视。”之后发生的事情——包括法律评论刊行了越来越多关于第二修正案的论文,以及至少一家法院采纳他的主张——不仅呼应了列文森的念想,它们还突出了其问题(要不是其推论的可信度和确定性)对理论家以及法律共同体中其他人的重要性。
五、理论及其表现出来的寓意
如果学者有一个值得进行学术研究并且在现实世界中也很重要的问题,那么着手将可能的答案予以理论化就非常重要,他或她反过来又可以利用这些答案来产生可以观察的寓意(也可以说是预期或者假说,observable implications)。我们说的“理论化”是指,提出“与研究问题的答案相关的合理的、精确的推测”。我们说的“表现出来的寓意”是指,如果理论是正确的话,那些理应在现实世界中被我们发觉的事物。
这类工作其实并不是神秘。事实上,我们每天都在进行。在我们教授几次课之后,我们可能会形成一种简单的“理论”,比如说,这门课的学生比去年我们所教的那些学生更好。这个“理论”表现出来的寓意也很容易想到:我们可能会预期这些学生的考试成绩特别好,论文写作更有说服力,在课堂上妙语连珠。
学术研究中的理论化也没有多大的差别,虽然它可以并确实会采取许多不同的形式。一些理论事实上是简单、微观的,或者只能够用来解释某些特定的情形,法律评论中有很多这样的理论。比如,在研究法官如何在行政决定的司法审查过程中适用两阶段的谢弗林检验,克尔(Kerr)提出了一种“语境化的”理论。那个理论至少就像他所建构的那样,是非常具体的:法官在裁判类似谢弗林案的案件时仍然在使用“传统的”因素,而不是两阶段的检验。同理,法学家经常提出一些理论,这些理论包括《信息自由法》、《全国劳工关系法》、《外国贸易区法》、《谢尔曼法》等法律背后的立法意图;或者有关弹劾的条款,第一修正案下的禁止建立国教条款,第四修正案下的搜查、逮捕与逮捕令条款,第十三条修正案等宪法条文背后的制宪者意图。
其他理论的范畴则更为宏观,试图解释众多现象。法学界中越来越流行的一种理论就是实证政治学理论(简称“PPT”),这个理论是由“政治制度的非规范性的理性选择理论”组成的。通过实证政治学理论,研究者们试图回答各种各样的研究问题——从为什么美国最高法院的大法官会对这些申诉案件而不是另外一些案件发调卷令、为什么不同政治组织(比如,立法机关和行政机关)的政策偏好会影响司法偏好,到什么样的倾向会导致下级法院偏离上级法院创设的先例,为什么法官们会创设并维持(并已得到律师遵循的)特定的规则、规范和传统。
在这个系谱的另一端则是根本没有包括多少理论的法律研究。一些学者完全跳过了理论,曼兹(Manz)在研究卡多佐(Justice Cardozo)大法官如何使用引证时就是如此。在提出了关于引证的实践问题之后,曼兹直接跳到了数据;只有在提出其中部分结果之后,他才开始对可能的解释进行理论化。同样,梅尔顿(Melton)在检讨制宪者是否相信弹劾是一种刑事程序时,也没有提出任何理论。相反,他直接诉诸证据,最后用证据来提出与制宪者的信念相关的经验主张。当然,这种策略无可厚非,但只有当我们承认以这种方式提出来的“理论”同样享有好的假设的地位,只是学者们还没有办法提供证据时才是可行的。换言之,由于梅尔顿理论所依据的证据,和用来评价这个理论的证据是相同的,所以这个理论没有办法证伪。文献中的证据保持一致的前提在学术研究中有着重要的地位,但是我们不能将这些前提等同于有经验证据支持的理论。
其他学者则是对相关的文献(或学说)进行评论,以此替代理论。一些研究法律或者法院判决是否具有预期(或者未曾预期的)效果的研究,就是典型。研究者并没有提供“实效”或者“影响性”理论,而是对其他研究、报告和论文进行评价——刻板印象,或是别的。后者处理的问题类似马普诉俄亥俄(Mapp v. Ohio)案的法院判决是否能够威慑警察的不法行为,或者《联邦民事程序规则》第68条是否包括庭前和解,然后用这些评价来设定预期。
因此,理论存在不同的类型、抽象程度和实质性应用。这些分类最终或许都依赖于研究的目标和目的。但是抛开这些因素,甚至是这些因素所诉诸的那种理论,研究者应该意识到他们可以遵守我们在这篇文章中所讨论的一些规则。倘若要让理论更加有用,他们可以通过以下做法实现这个目标:(1)援引能够产生可观察之寓意的理论;(2)析取尽可能多的寓意;(3)描述他们准备如何观察这些寓意。
(一)援引能够产生可观察之寓意的理论
一个好的理论应该能够引导他人就它试图要描述或者解释的现象,提出可观察的寓意。只有通过评估这些可以观察的寓意——将理论寓意与某些相关的经验观察进行对比,我们才能够知道理论是否是正确的。
可观察的寓意经常表现为,主张我们可以——至少原则上——观察到的那些变量之间存在某种关系。我们说的“变量”是指一些现象的特征,这些特征会随着现象发生时的不同的场合而有所差别。比如,某个人的种族,或者最高法院一个案件的审理结果。之前我们曾经讨论过“因果关系”变量(也就是说,我们认为这种变量会导致某种结果,比如说米兰达规则的存在会导致供述的减少)以及“因变量”(也就是说,我们想要解释的那些后果,比如说供述率)。因果关系的变量属于“独立的”(或“解释性的”)变量这一宽泛的范畴。这些变量有助于解释结果(在这一范畴下的其他变量则是“控制性”变量,下面我们将会讨论到)。
要明白从理论到可观察寓意的过程是如何运作的,不妨考虑下Eskridge所作的研究,他利用实证政治理论来理解美国最高法院的大法官们是如何解释联邦制定法的。按照他的解释,大法官们在审理案件时各有各的目的,而在Eskridge的眼里,大法官们的目的就是看到各自的政策偏好被写进法律当中,但大法官们也意识到如果不考虑到其他相关行动者——包括国会的看门人(比如相关委员会的主席以及政党领导人)、国会其他成员,以及总统——的偏好和可能的行为以及这些行动者所处的制度语境,自己就没有办法实现目标。
为了提出这种解释的可观察寓意,Eskridge使用了图3 a和图3 b所示的图片。在每一张图片中,我们描述了对于某一个特定政策——例如民权法规——的诸多假设性偏好。横轴代表了(公民权利)政策空间,在这里可以按照从左(最“自由的”)到右(最“保守的”)的顺序排列。竖轴表明了相关行动者的偏好(“最喜欢的立场”):总统、最高法院的中间派、国会,国会当中决定是否要向各自的议院提议民权立法的关键委员会以及其他看门人。请注意,我们还可以分辨出委员会的无差别点(indifference point),在这一点上,“最高法院所设定的政策是该委员会所喜欢的,而且喜欢的程度恰恰等于整个议院可能会选择的相反政策”。换句话说,因为这种无差别点,以及国会的中间派成员与委员会委员们的距离是相等的,所以委员会委员们对这一无差别点和国会最喜欢的立场的偏好程度是相同的——无论选择哪一种对他们来说都无所谓。
图3 偏好的假设分布情况
3a可观察的寓意1:政策是根据委员会的无差别点设定的
3b.可观察的寓意2:政策是根据委员会的无差别点/最高法院最偏好的立场设定的
正如我们所看见的,在图3a中,最高法院处在国会、关键委员会和总统的左边。这就意味着,在这个例子中,相比其他的政治机构,最高法院更加偏好自由主义式政策。在图3b中,最高法院仍然偏向于相关行动者的左边,但需要注意的是,委员会的无差别点与最高法院最偏好的立场是相符的。
现在假设最高法院已经受理了一个要求它解释民权法规的案件,最高法院会怎么审理这个案件呢?从埃斯克里奇(Eskridge)的理论出发,就会出现以下可观察的寓意:基于行动者最偏好的立场分布情况,图3a中最高法院不愿冒险根据自身最喜欢的立场解释法规。可以预期,国会将轻而易举地推翻这个立场,总统也可能会支持国会。相反,在埃斯克里奇的理论下,如果大法官们希望看到法律反映了自己的政策偏好,那么他们在解释法规之际就应该尽可能靠近委员会的无差别点。理由很简单:既然委员会觉得无论选择无差别点还是选择中间派立法者所偏好的立场都没有关系,那么委员会可能就没有动机通过立法来推翻在差别点处设定的政策。因此,除非冒着被国会推翻的风险,最终最高法院或许会提出一种接近,但不完全就是其理想点的政策。
图3b中的偏好分布情况指向不同的可观察寓意:最高法院所设定的政策或许反映了它真诚持有的偏好。因为大法官们投票支持自己的偏好(而这种偏好相对接近自由主义),并且将最高法院的政策设定在自身最偏好的立场上,相关的国会委员会则没有动机推翻最高法院。由于委员会的无差别点和最高法院最喜欢的立场是相同的,它们就会对最高法院所喜好的政策持淡然态度。请注意这两种寓意,这个理论暗示着主要的解释性变量(与另一个理论相关的关键行动者的偏好)和因变量(最高法院对制定法的解释)。
埃斯克里奇式解释所依托的理论,在范畴上是宏大的。但是较狭窄的理论,例如学者们从对相关文献或者学说的评论当中提出来的理论,也会提供类似的指引。我们之前曾经提到过的希尔曼(Hillman)对禁止反言的研究,就是例证。作者并没有提出他自己的理论,而是依赖于“新的共识”来提出可观察的寓意。
上述做法既漂亮又有效,因为缺乏可观察寓意的理论是没有什么用途的。它们之所以没有多少用处,理由有几个。其中一个值得注意的理由是,如果没有明确的寓意,读者就无法知道是否有经验证据支持该理论,或者理论能否被证伪。对立法意图的学说研究或者理论化,有时候会落入这一陷阱中,艾马尔(Amar)和威道斯基(Widawsky)对第十三修正案的研究就是一个例证。艾马尔和威道斯基认为这一修正案,“在文字和精神上……很显然是出于对虐待儿童的担忧”。确实,这是一个非常有趣的理论,研究者也相对细致地描述了这个理论,并且试图通过这个修正案的立法史、司法解释等等来证明这个理论。但是,他们并没有提供可观察的寓意,因此读者还是没有办法判断这个理论是否建立在坚实的基础之上。要完成这样一个重要任务,作者需要扪心自问:如果我们的理论是正确的,并且这一修正案的“文本和精神”真的“直接”地回应了虐待儿童行为,那么我们能够从这个理论当中推导出何种关于现实世界行为的寓意或者预测呢?
(二)抽取尽可能多的可观察的寓意
我们对多值性的强调意在表明,学者们不应该在一种或者两种寓意或者预测面前止步不前。他们应该提出尽可能多的寓意,即便它们与相关的具体假设只有间接联系。要看到这种主张背后的逻辑,不妨先考虑一项对米兰达诉亚里桑那州(Miranda v. Arizona)案判决之影响的研究。该研究一开始就提出了这一(通常是隐含的)理论:米兰达规则导致警察所能获得的被告人供述的数量变少。再重申一下我们之前提到的观点,即这样一种理论,可以例证那些经常被法学家们提到的理论。即对某一个具体的现象来说,相关理论是明确、具体且有针对性的。但是这并不是说该理论就没有办法产生可观察的寓意。它可以产生这样的寓意,且其中一种寓意还特别明显:如果米兰达规则被实行,我们就应观察到供述率的减少。另一个可观察的寓意或许是,若不存在米兰达规则这样的法官造法或者法律,我们理应观察到供述率的减少幅度会更小。
这些可观察的寓意可能会导致研究者将作为样本来源的司法管辖区,定位在执法官员几乎完全遵守米兰达规则的地方,并收集与这两种寓意相关的供述率方面的信息。但是研究者不应就此止步,他或她应该寻找别的寓意——没错,就是那些可能与他或她对米兰达规则影响供述率的原始理论相符合的寓意,还有那些与米兰达规则对刑事司法制度可能产生的其他许多影响相符合的寓意。那是因为,在供述率之外的领域可以找到的效果,都会增加原初理论的合理性。(这个一般性主张总是能够成立的,只不过特别适用于这个例子,因为我们从关于这个话题的大量文献中可以知道,法学共同体的许多成员——包括学者、律师、法官和其他决策者——并不只是或者简单地关心米兰达规则是否减少了供述的数量。他们似乎更关心米兰达规则可能存在的、对刑事司法制度所产成的更广泛的影响。)
要理解为什么我们会提出这个主张,不妨想象下有一位研究者接受了该主张,而且还罗列了大量的寓意,除了从研究者的具体理论中析取出来的可观察的寓意之外——比如,如果我的理论是正确的,那么我们就应该观察到,如果米兰达规则得到实施,那么供述率就会减少——还有宽泛意义上米兰达规则对刑事司法制度所产生的影响,包括:
(1)同意基于米兰达规则动议,推翻有罪判决的初审法院法官;
(2)在涉及米兰达规则的争议上,推翻有罪判决的上诉法院法官;
(3)在与米兰达规则有关的案件上,花费了大量“宝贵”时间的所有各级法院。
(4)看到无罪率和供述率正在下降的执法官。
(5)未放弃米兰达权利的被告人。
我们还很容易联想到其他寓意。但是,暂时假设这些都是研究人员关注的寓意。进一步假设,研究人员遵守我们所提的全部建议,并发现上述五个都是成立的。如果情况确实如此,我们也许会更认同一些学者提出的主张,那就是即便研究者只考虑了一种寓意,例如供述率的减少(假设这一减少是成立的),事实上米兰达规则对美国法律制度产生了更深远的影响。更值得注意的是,采取这种策略,能够更好地实现原来的目标,即评价米兰达规则对供述率的影响。这一推理过程是,如果米兰达规则强大到可以对这些比率产生影响,那么它也应该表现出上述某些别的寓意;反过来,如果那些寓意有一些是不成立的,那么关于供述率的结论就更加不可靠。这样看来,寻找“最大化杠杆”(maximize leverage)的策略——确定可观察的、数量最大的可能寓意,即便研究的直接目的非常窄——也许非常有效。
对那些基于非数值型证据的研究来说,情况也是如此。让我们回到艾马尔和威道斯基对第十三修正案的研究上来。虽然两位作者未曾提供明确的假设,但是其理论——虐待儿童是第十三修正案所禁止的奴役行为——当然会令人们产生一些可以检验的预期。例如,如果“奴役”这个词宽泛到可以包括虐待儿童的行为,那么我们或许可以预期在历史的、立法的以及司法的记录当中找到那种情感表述的踪迹。这一观点可以推导出许多可观察到的寓意,那就是:(1)权威的立法者所作的陈述(比如,立法机构的多数成员)表明他们希望“奴役”这个词所表示的含义不单单是“南方奴隶制那种‘特定的制度’”;(2)法院之前对这一修正案的解释,证明法官们认为“奴役”这个词的对象,包括受到父母虐待的儿童;(3)今天的词典所提供的释义,能够证明“奴役”具有宽泛的含义。
这只是三个例子而已。读者和研究人员也许会对其中某些例子提出质疑,但无疑也会提出别的例子。就目前而言,我们强调的是更普遍的教训:对所有理论而言,研究者应该问:“它们表现出来的寓意是什么?”然后,反过来,罗列所有的可能性——即便在实际的研究过程中只能观察到其中一小部分。学者们识别的寓意越多,他们的理论就越强、越有用。他们越是能够用现实的数据来检验这些寓意,我们对他们的结论就越有信心。
(三)描述如何观察这些寓意
因为理论和它们的寓意一般是由概念(concept)组成的,因此研究人员在评价他们的理论和相关寓意之前,应该描述他们是如何在现实世界中观察到这些寓意的。例如,如果最高法院和其他相关行动者对民权政策的看法是一致的,那么最高法院就会根据它的偏好来解释民权法,这是前述Eskridge之理论所表现出来的寓意。为了对其进行评价,我们需要明确地界定何为民权法(例如,我们将之狭隘地定义为那些明确表明自己是民权法的法律,我们也可以将之宽泛地定义为所有法院用来保护民权的法律,不管它们原来的目的或者意图是什么)。因为公民权利立法,是一个需要予以澄清的概念,只有这样我们才能够观察它。法律研究关注的其他众多现象也是如此,例如“遵守”、“正当性”(legitimacy)和“有效性”等。这一“澄清”过程有时候被称为进行“可操作化”(operationalizing)、“可操作的定义”,或者更简单地说,对概念进行“定义”。
从一方面来看,这不会是一个特别繁重的任务。如果研究人员谨慎地并且明确地“提出”其理论,那么他们应当很容易地对这些理论的寓意所包含的概念提出明确的、可测量的(measurable)定义,读者也能轻松地判断他们做得好不好。出于这个原因,以足够的精确度具体描述理论,以便读者可以看到作者是如何测度理论的寓意,乃是理论化的一个重要组成部分。现在,回到Eskridge对制定法解释的研究上来。按照他的理论,最高法院中间派成员的偏好,以及各种政治组织(比如,参议院、众议院或各个关键性委员会)的偏好,有助于解释具体的政策结果。界定最高法院的“中间派成员”可以很简单——根据某一个已得到界定的政策维度,处在最高法院成员分布情况中间的大法官们。
但在另一方面,在实践中辨识这种类型的大法官经常会遇到不少问题。也许最普遍的问题,出现在研究者未能清楚说明其理论之际。里夫斯(Revesz)对于哥伦比亚巡回区美国上诉法院的法官在环境法案件中的投票模式的审视,提供了一个例子。该研究有一部分内容,试图判断以下理论陈述是否正确,即“一些评论家……认为,法官仅仅是根据他们的政策偏好投票。在环境法案件的审理中,也有人这样想,由共和党总统任命的法官大多投票支持放松管制,而民主党总统任命的法官会投票支持更加严格的环境管制”。
请注意概念上的难题:这个理论是要求法官们投票时,遵从他们自己的政策偏好呢,还是遵从任命他们的总统的所属的党派?这个区分似乎是没有意义的,但是,因为“政策偏好”和“所属党派”并不是一回事,所以这个区分并不是完全没有意义的。我们也许可以用以下任何一种方式来明确“政策偏好”:法官属于民主党还是共和党,法官是自由派还是保守派,或者,就是任命该法官的总统属于民主党还是共和党。正常情况下,“总统的党派”是比较明确的,而且完全可以将之定义为总统所属的政党。但是,既然这个理论将二者混为一谈,那么我们就会面临这样一个问题,即理论表现出来的寓意就是“政策偏好”或者“党派性”。(事实上,里夫斯在这篇文章中想要表达的真正意思是:党派性是否可以成为政策偏好的一个测量标准。我们将会在第七部分讨论这个全然不同的问题。)
里夫斯的研究是定量研究。但是,若定性研究的作者没有谨慎地详述他们的理论,也会碰到类似的问题。以辛西娅·威廉姆斯在1999年发表的论文为例,该文指出:1934年《证券交易法》的立法史,授权证券交易委员会要求上市公司履行社会责任而不单单是财务方面的信息披露。但是,辛西娅·威廉姆斯说的“立法史”到底是什么呢?她是在“非常宽泛的意义”上使用这个术语,指“法规的创设(和演变)的整个环境”,还是“更为狭隘的意义——从法案到立法的制度性过程”?因为在这个方面不够精确,身为读者的我们无法直接看到“立法史”的明确测度,一种我们知道符合原初理论的测度。由此导致的结果,反过来(正如我们在下面将会提到的)影响我们判断她用来说明该理论的寓意的尺度,是否能够恰当地说明相关概念的能力。如果她采取的是狭义的立法史,那么她可能就需要一种能够概括所有或者部分赫策尔、利博纳蒂和辛西娅·威廉姆斯所提到的12份材料的尺度,这个尺度可以指委员会的报告、议会辩论,还有记录在档案当中的投票情况。一种更加宽泛的观点,可能会要求一种更加宽泛的尺度,包括制定法案之前和之后的社会环境。
在详细描述理论的可观察寓意方面,罗伯特·威廉姆斯应该如何选择呢?我们应该如何判断其选择的是好是坏呢?此处的一般性准则是,理论所运用的定义,应当是最接近概念内涵的定义。这是因为我们没有办法直接观察那些源自理论自身的概念,即使该理论就是我们的评估对象。因此,研究者越能够对概念进行清晰界定,以至于能从经验层面对相关概念进行测度,那么相关的检验工作就会做得越好。
六、控制相反的假设
我们在这篇文章的开篇处指出,如果科学家试图寻找所有和他们“偏好的”理论相反的证据,那么他们就是在遵从推论规则;如果研究人员尽可能增加理论的可证伪程度以及可以证伪理论的不同领域和数据集,那么他们就是在遵从经验研究的最佳传统。我们的所有论述都未曾改变这一基本前提。恰恰相反,唯有对相关理论(及其可观察的寓意)提出充分的挑战,研究者才能够提出尽可能坚实的论据,将理论视为最需要辩护的对象的那类学术研究是非常有问题的。
要理解为什么,不妨考虑一下布福德(Bufford)对《破产法》第十一章相关案件的“经验”研究。在该研究中,他指出“相对温和的司法案件管理,在当下《破产法》所调整的那些案件中,可以减少大量的诉讼拖延手段”。布福德继而提出了该主张所表现出来的一个寓意,即法官采取“快速通道”,可以成为一种特殊的减少拖延的案件管理模式。他通过检讨使用快速通道前后法官的备审案件目录,来验证这个寓意。如果这个研究表明快速通道“在一个典型的案件中,可以在完成对第十一章所设事项的确证方面节省24.1%的时间”, 那么研究人员就可以声称大功告成——研究者相信,他的理论是正确的。但是Bufford的宣称还是为时过早,因为他没有考虑到案件拖延率的减少还有另一种解释,即案件拖延率的下降有可能和他们所分析的特定法官或者一般情况相关联。法官在他们所分析的那段期间内所发生的变化,很有可能并不仅仅是因为快速通道。甚至包括律师,在意识到法官们已经改变了自己的案件管理模式之后,也有可能会改变他们的案件管理模式(比如,没有办法提出特定的诉讼,或者到其他司法辖区提起诉讼)。如果没有考虑到这些以及许多别的解释,作者就没能为其理论提供应有的说服力。事实上,布福德的疏忽恰恰让这个理论变得更没有说服力。
要避免这个问题,就需要研究者梳理现有文献,从中寻找,细致并富有想象力地思考那些不符合他们所提出来的理论的解释。(前者很容易做到;后者就不那么容易了,这就是为什么所有的研究者都需要学者共同体的支援)。而且,作者应该提醒读者注意那些研究的结果,即任何既存的相反解释。并且,研究者最后应将这些解释融入自己的研究之中。
最后一步很重要,因为如果学者们对不同的解释不闻不问,那么他们的研究将会遇到所谓的“遗漏变量偏差”(omitted variable bias),这会使他们所作的因果关系推论令人生疑。就如何随时避免此类偏差,我们还有很多可以说,但是请注意下一主张的一般性寓意:在选择研究变量的过程中,学者们不能止步于能够从其理论表现出来的寓意中直接推导出来的变量。研究者完全应该包容所有与其他理论的寓意相关的变量,哪怕这些变量不一定符合其理论的寓意(也就是说,相反的解释或者假设)。
采集支持潜在批评者之立场的量化数据,也许是学者最大化可证伪性并且最终免收批评的最佳办法。目标并不是推翻批评者的立场,因为研究者和批评者都可能是正确的,而是为了保障不存在遗漏变量偏差。对于试图作出因果关系推论的研究来说,这一点特别重要。布福德(Bufford)的研究很清楚地说明了这一点,拉莫斯(Ramos)对于法律期刊在遴选其编辑部成员时实施的纠偏行动计划的效果评估,也是如此。基于调查法律评论编辑的相关结果,拉莫斯得出结论称,如果不存在这种纠偏行动计划,“少数族裔实际上就无法成为许多法律评论编辑部的成员”。他有什么证据呢?那就是78份法律评论中有38%是没有实施纠偏行动计划的,而这38%的法律评论缺少少数族裔,但是所有实施纠偏行动计划的6份法律期刊却都有少数族裔。换句话说,他依靠唯一一个解释性变量(法律评论编辑部成员的选择过程中是否实施纠偏行动计划)就作出了因果关系的推论。这种做法的问题和我们在布福德的研究中提到的问题是类似的,比如说,它忽视了因变量(法律评论的少数族裔成员身份)的诸多其他可能的解释,特别是在法学院当中少数族裔学生总体上所占的比例。当然,我们可能会期待,如果在法学院中少数族裔学生所占比例越大,那么在法律评论编辑部成员当中,他们的数量就会越大。糟糕的是,这种相反的解释可能在因果关系上优先于拉莫斯的解释。因为,假设在法学院中少数族裔学生越多,那么法律评论编辑部成员遴选过程中就越有可能实施纠偏行动计划,而这完全是有可能的。
因为拉莫斯忽视了可能的相反解释,所以他没有办法确信他所偏好的变量真的有那种影响。但是,避免遗漏变量偏差并不意味着他的或者别人的分析就一定要吸收代表所有可辨识的替代性解释的变量。相反,这个要求其实说起来很简单:只有当相反的变量满足以下所有条件时,研究者才应该控制(换句话说,保持在恒定状态)可能的混合变量:
(1)它和关键的因果关系变量有关(或者有相关关系);
(2)它对因变量有某种影响;
(3)它在因果关系上优先于(换言之,在时间上先于)关键的因果关系变量。
就拉莫斯的研究而言,至少有一种可能的相反解释——在法学院当中少数族裔学生的数量——似乎满足上述所有三项条件。那个数量很可能和法律评论编辑部成员遴选过程中纠偏行动计划的存在(或不存在)有关;它可能会影响法律评论编辑部成员中少数族裔学生的数量;它在因果关系上优先于法律评论的编辑遴选过程中纠偏行动计划的创设(换句话说,它是原因变量)。既然它满足上述遗漏变量偏差的三项条件,拉莫斯的因果关系推论就是有偏差的。而且,既然三项条件没有办法解释相反解释的影响,拉莫斯的结论就是不确定的。因为这三项条件可以与强因果关系、负面效果(即纠偏行动计划减少了法律评论编辑部中少数族裔学生所占的比例)或者根本就没有任何关系这三种结论相一致。
由于遗漏相反的变量可能会无法说明一些事实一样,因此研究者要做的工作,不止于测度相反的变量,或者证明这个变量与因变量之间互不关联。我们要做的是,以法学院少数族裔学生数量所占比例的影响为参照,检讨纠偏行动计划对于法律评论编辑部中少数族裔学生所占比例的影响。拉莫斯有一个现成的简单办法可以做到这一点,那就是在开展其研究时,使用一组少数族裔学生数量所占比例几乎相同的法学院。这样一来,相反的变量就可以维持在恒定状态,并且由于恒定量(constant)没有办法引起一个变量(甚至与之相关),因此研究设计保证了它不会混淆关键的因果变量和因变量之间的关系。
假设刷选观察结果从而没有办法将相反的解释转变成恒变量,那么研究人员可以使用统计学方法让受控变量“在统计学上恒定不变”。类似地,他们在实验过程中可以让这些变量“在物理上恒定不变”。但是,不管采用哪一种办法,研究者都需要控制相反变量,而这些变量满足上述所有三个导致遗漏变量偏差的条件。研究者不能忽视这些变量,也不能仅限于证明一种解释性变量和因变量之间不存在独立的关联。
另一方面,如果上述三个遗漏变量偏差的条件中有任何一个不适用,那么相反变量的控制就不仅没有办法用来评价关键因果变量的效果,还可能会因为评价不相关的数量而浪费不少宝贵的数据。更糟糕的是,如果第三个条件(相反的变量在因果关系上优先于关键的因果变量)不成立,而研究者还在控制这个变量,那么它们就会导致巨大的偏差。在拉莫斯的研究中,因变量是实际上被选为法律评论编辑的少数族裔学生的数量。假设我们对下一变量施加控制:负责选择新成员的少数族裔编辑,意图在宣布其决定之前,先制作好5份议事记录。很显然,这一“意图”变量几乎会准确地预言我们的因变量,所以我们不应控制它。如果我们选择有近似意图的法律评论之决策者所在的各个法学院为样本,从而将这种“意图”转变为常量,那么对于我们所分析的所有法学院而言,少数族裔学生比例的真实水平很可能是相同的。这不会使我们作出结论说,纠偏行动计划不具有因果关系方面的效果,即便其效果实际上是非常大的。所以,尽管这一可能的、相反的变量——“意图”——满足条件(1)和(2),也必须被排除在分析之外,因为它不满足条件(3)。
七、测量与估算
一旦研究者已经确定自己的研究包括哪些变量,他们就必须要对这些变量加以测量并进行估计。假设我们想要确定:进入声望更好的法学院,是不是意味着毕业后会有更高的初始工资?为了验证这一假说,我们必须要将“法学院声望”这个变量,转换成某种准确的声望指标。这就是所谓的测量:将研究的对象(比如说,真实世界的事件、主题、过程)与某些标准进行比对,例如数量、容量或者类型。通常我们在测量高度的时候,会将某一客体和某个标准比如英尺、公尺进行比对;我们在测量成就的时候,会将学生的考试成绩和某种正确率尺度进行比对,就好像我们会根据体温计中水银柱的高度来测量温度一样。我们在测量法学院的声望时,也可以抽取一些潜在的雇主,让他们告诉我们在选择新就职的律师时最开始会选择哪些法学院,也可以使用《美国新闻》和《世界报道》公开发表的评级。
尽管测量涉及如何记录每一个数据(datum),估计则涉及到将所有的测量[或“数据”(data)]加以整理并从中推断出需要的数字。假设我们对雇主进行随机抽样并对他们进行调查后,了解了法学院的声望。每位应答者对调研问题的回答都是一个测量,而所有应答者的平均值就是估计美国所有雇主对于法学院声望的平均信念的一种方法。
这样一个简单的例子所要证明的是,从可观察的寓意,到观察该寓意的多种例证(换句话说,就是测量),再到估计,这个过程是经验研究中非常重要的一步。那是因为,正如我们在上文所表明的那样,我们永远没有办法对那些被理论直接概念化的变量进行对比;我们没有办法对“声望”直接进行对比。我们能做的,就是对我们从声望的某些测量标准中获得的、对声望的解读进行对比。这就意味着,我们的对比以及,最重要的,我们对研究问题的回答,只有在我们所提出的测量标准的意义上才是有效的。如果说这些测量标准并不能充分地反映我们的理论所包含的概念,那么我们所得到的结论就可能是有瑕疵的。
因此,在这个部分,我们将用数页篇幅讨论测量和估计方面的评估准则。然后,我们将对如何改善测量和估计提供一些建议。个别测量可能涉及非常艰难的工作,测量包括许多组成部分,一些内容实际上就是推论。准确的估计也很困难,甚至测量和估计的截然二分也是专断的。我们在此处维持这种区分主要是出于便利,即将一些争论搁置一旁,以将注意力放在更加重要的论题上。
(一)测量
正如我们刚才指出的那样,测量(Measurement)要求根据一种标准,例如数量、容量或类型,对现实的某些方面进行比较。比如,如果我们像劳莱斯(Lawless)和默里(Murray)对联邦最高法院在破产法案件中下发调卷令决定的研究那样,定义巡回法院之间的“冲突”, 即至少两个巡回法院之间的真正冲突,那么我们就必须要提出一种尽可能精确地体现这种定义的测量标准。对劳莱斯和默里来说,这个测量标准就是最初受理的巡回法院是否明确表示不同意另一个巡回法院对这一申请的任何“争议内容”所作的裁定”。如果一项申请满足这一标准,那么就存在冲突;如果没有,就不存在冲突。
从这样一个简单的例子来看,测量过程的一个明显的劣势被展示了出来:除了得到测量的那一面或那些方面,关于研究对象的其他所有东西都丢失了。几乎所有的测量计划都是如此。对“乔治·W.布什”(George W.Bush)进行概括,说他有5英尺10英寸高,显然就忽略了关于他的其他许多信息,这个主张——只有当上诉法院注意到冲突时才存在冲突——也是如此。但是,测量允许我们将许多显然不同的事件或者主题放到同一个维度上,使我们更容易掌握研究对象的一个方面或更多。我们不需要通过一口气查阅全部200个调卷令申请,就可以理解巡回法院之间就这些申请发生的分歧。我们只需要用200个数字来概括,就可以很好地简化这个任务。更重要的是,理解真实世界经常要求某种程度的抽象,因此某种程度的测量在经验研究中发挥着重要的作用。关键在于,我们应该按照研究目的对正确的方面进行抽象,针对每个对象测量足够多的方面,从而理解对研究问题而言至关重要的所有部分。
不管是定量的经验研究,还是定性研究,情形都是如此。就前者而言,研究者通常会将数值赋予他们的测量标准。对权力分立的研究,比如Eskridge所作的那种,就是一个例子。如果研究人员按照某种特定的政策维度,将“最高法院的中位数成员”定义为处于最高法院在民权政策方面的成员分布情况之中间地带的大法官,那么他们就必须要识别出那位大法官。并且,通常来说,还要对大法官的政策立场附上某种数字型的政策偏好分数。这一做法要求研究人员提出某种大法官们政策偏好的测量标准,或者援用某种现有的测量标准,比如西格尔(Segal)和卡佛(Cover)所使用的标准,或者源自斯皮斯(Spaeth)的美国联邦最高法院司法数据库的那种标准。
虽然数值型的概括会很便利、很简洁,并且就其本身而言很精确,但是测量并不一定与数字有关。在定性研究中经常出现的情况是,像“高”、“中”、“低”或者“天主教”、“清教”、“犹太教”的类型,都是合理、有用的测量标准,如果研究人员能足够充分地定义测量的标准,那么他们(或者其他人)就可以无歧义地使用这个标准。要理解这一点,让我们回到辛西娅·威廉姆斯(Williams)对证券委员会的研究上来。她必须测量1934年《证券交易法》的立法史是否授权证券委员会要求上市公司进行社会责任信息披露。让我们假定她对立法史的定义是狭义的——例如,包括从立法草案到立法通过的全部材料。假设威廉姆斯就是这么做的,她接着就需要测量在立法过程的每一个阶段,这些资料(比如,委员会报告、立法机构论辩等等)是否支持她的命题。此处的测量法有可能采取分类的形式——这些报告或者陈述“支持”或“不支持”这项权力。在提出这种分类或者度量的过程中,威廉姆斯当然需要说明什么样的陈述才算是支持或者不支持她的命题。当我们说“研究者必须要定义分类或者测量标准”,我们想要表述的就是这个意思。
学者们应该如何评估他们的测量方法呢?这个问题可以说完全涉及对两个重要维度的评估——信度(reliability,可靠性)和效度(validity,有效性)。
1.信度
信度是指在多大程度上可以在相同时间,对相同受测对象,以相同标准,重复某一测量或重新生产出相同的值(不管这个值对不对)。假设我们连续100次站在体重秤上,如果这个秤没坏的话,就应该连续100次显示相同的体重——即便这个体重并不准确。(相反,可靠并且有效的体重秤,会连续100次显示相同且准确的体重)。
换言之,在经验研究中,如果某一个测量法能够重复产生相同的结果,不管实际上由谁或拿什么东西在作测量工作,那么我们就可以认为这一测量法是可靠的。假设威廉姆斯提出了以下测量方法来评估立法机构对1934年《证券交易法》的陈述是否支持她的如下理论,即证券委员会有权要求公司进行社会责任信息披露:如果发言人主张证券交易委员会拥有定义信息揭露的宽泛权力,那么发言人就支持了这一说法。同时,假设她在分类时认为当时担任银行与货币委员会主席的Fletcher议员所作的陈述支持她的命题,但是,另一位同样运用她在文章中所描述的那种测量程序的研究人员,在分类时却不认为弗莱彻(Fletcher)的陈述能够支持其命题。这说明,有证据表明她的测量方法是不可靠的。
为什么我们要关心不可靠的测量程序呢?一个主要原因是,这些程序能够提供证据来证明,研究人员更偏向——不管多么的不起眼——支持其偏好的假说的测量标准。假设威廉姆斯按照自己的测量标准,在分类时认为90%的立法记录材料支持她的理论,但是另一位运用同样程序的研究人员却发现只有10%能够提供支持。我们有理由相信这个测量标准是不可靠的,并且分析家在使用这种度量标准时带有偏好。
这就是为什么,当研究者生产出其他人无法重复的测量时,问题就应当归咎于研究者自身;必须是最初的研究者,而不是进行重复的人,来承担起责任。但是对研究者来说,到底哪里出错了呢?导致测量方法不可靠的一个主要原因,是模棱两可:如果不能够重复某一种测量,很可能是因为研究一开始未能对其进行充分的描述。让我们回到里夫斯(Revesz)的研究,并回忆下作者从事的法官政策偏好是否会影响其对环境案件的处置方式。为了测量政策偏好,他用任命该法官的总统所属的政党来测量——当然这是一个可靠的测量(尽管并不一定是有效的测量,我们在下一节将要予以讨论);至于如何测量“处置”,他创设了一个简单的二分法,即法院判决是否推翻原判。尽管他告诉我们,他将“发回重审”算作“推翻”, 但是,他并没有告诉我们他是怎么描述表5所罗列的处置方式的(以“值标签”的形式)。根据美国上诉法院数据库,下述所有方式都被巡回上诉法院使用过。
表5 美国巡回上诉法院在案件审判的可能处理方式
如果另一位研究人员试图重复(回溯或者更新)里夫斯的研究,那么这位研究人员应当将“部分维持,部分撤销,并发回重审”描述成推翻原判,还是维持原判?无论是这位研究人员还是我们,都没有办法回答这个问题,因为里夫斯并未作答。在这种情况下,我们不得不自行判断,而这种判断未必就和里夫斯所做的相同。这样一来,其测量的可靠性就受到了损害。
因而作为一项准则,人类的主观判断必须尽可能从测量过程中排除出去,或者,如果判断是必要的,那么隐含在判断当中的准则就应该足够明确,让其他研究人员也能看到。产出可靠测量的关键,在于为编码人员(例如,那些阅读案件、对处理方式进行赋值并将该数值键入电脑软件的人)设立一系列非常精确的操作准则,以尽可能减少解释或者主观判断。即使研究人员自己编码数据,也应该做一份操作清单。因为缺少这份清单,其他人就可能没有办法重复这一研究(和这一测量)。按照上述进路,最重要的法则是:研究人员应当把依据处理方式进行案件分类的任务指派给一年级法学学生,研究人员和学生之间允许存在的唯一沟通渠道,是一份详细说明了编码方案的论文附录。这就是从事经验研究的方式,也是判断研究好坏的方式。
要理解这个过程是如何运作的,让我们再一次回到里夫斯的研究。在研究的第一步,即便里夫斯只对下级法院是否维持或者推翻某一处理结果感兴趣,他也最好是先从美国上诉法院数据库或其他权威渊源所报告的所有处理方式开始。(表5说明了该数据库中的处理方式)
事实上,研究人员应该知道就各种“处理方式”的值而言,哪一个应算作“推翻”,哪一个应算作“维持原判”;我们应该要求他明确说明这一点(比如,值2、3、4、6、7=推翻)。不过,从更具体的值开始有两个好处。第一,不管是谁对数据进行编码,所犯的错误都会少得多。不妨这样想,假设里夫斯提前告诉编码人员将值2、3、4、6描述成“推翻”,那么编码人员必须采取两个步骤。首先,鉴别处理方式;然后,鉴别它是推翻还是维持原判。但是,假设里夫斯只让编码人员鉴别处理方式,那么编码人员只需要采取第一个步骤就够了。既然每一个步骤都可能会产生错误,研究人员就必须努力减少这些错误。第二个好处出现在里夫斯开始分析其数据之际。因为他已经很整齐地编码了各种“处理方式”,就可以确认任何特定的编码决定是否影响了他的计算。例如,假设他将值6算作是“推翻”,即便最高法院只是部分维持原判。既然这代表了他本人的判断(尽管他必须要将这个判断记录在案,从而让别人能重复他的测量),并且既然相反的编码(将值6算作是“维持原判”)也是合理的,他就必须检讨其判断对结果所产生的影响。
在下一步,研究人员必须提供一些清晰的编码指南,即一些无须商议,就能够得到研究从事者和其他人遵守的规范。下面这段来自美国上诉法院数据库的话,就是一例:
这一栏记录了上诉法院对于下级法院或者行政机关之决定的处理方式。也就是,上诉法院是如何“对待”下级的决定的。换句话说,这个变量代表了案件对诉讼双方而言的基本结果。[这个变量有以下值(参见上表5),编码人员应该严格按照这些值整理法院的意见。]
最后,研究人员应该承认,即使有这些清晰的指南,仍无法杜绝编码错误。这是因为研究者或者编码人员会错误地记录一个值,或者误读法院的决定。他们应该通过信度分析来估计这种错误。一个简单的做法,是进行随机抽样(例如抽取被研究的全部样本的10%),然后让其他研究人员对这些样本进行重新编码。美国上诉法院数据库的创设人就采取了这样的做法:
为了检查编码的可信度,我们从数据库的15315个案件中随机抽取了250个案件。第二位编码人员对这250个案件组成的样本进行独立编码,然后对这两次编码的结果进行比对。我们公布了三种测量可信度的方式,包括……第一位编码人员所使用的编码以及第二位编码人员所使用的编码之间的相同率(表现为百分比)。
即便是这类简单的可信度分析,也很少出现在法律评论所发表的相关研究中,但是作者们做起来其实很容易。更为重要的是,他们应该想到去做。因为,如果研究人员遵循我们在上文提到的测量程序,那么他们就会获得令人满意的结果,而这反过来又会使得他们对自己的研究更有信心。美国上诉法院数据库的汇编者们在获得处理方式变量方面就是如此:两个编码人员之间的相同率是95.2%。
2.效度
之前我们曾经指出,如果一个人连续100次站在体重秤上都能够得到相同值,那么这个体重秤就是可信的。这虽然很好,但不一定意味着这个体重秤就是有效的。如果一个人的真实体重是150刻度,但这个体重秤连续100次显示了125刻度,那么我们就不会重视这个体重秤。效度关联的正是准确性。效度是指一项可靠的测量反映出被测量的基本概念的程度。连续100次显示体重为150的体重秤,是可信且有效的;连续100次显示体重为125的体重秤,是可信但非有效的。
正如体重秤可能是可信却非有效一样,学者们所援用的测量也可能如此。不妨考虑下克罗斯(Cross)和蒂勒(Tiller)对影响美国上诉法院裁决的不同因素——包括法官们的政策偏好——的研究。像里夫斯那样,两位作者按照任命法官的总统所属的政党,来测量法官的政策偏好。无疑,这是一个能够在编码人员之间产生高度合意的尺度:如果编码人员手上有每位总统的政党身份清单——一个我们全都同意的清单,并且知道哪一位总统任命了哪位法官,就不需要任何主观的判断了。我们也许拥有了一个完全可信的尺度,但是,这个尺度是否准确地把握了“政策偏好”背后的概念呢?里夫斯认为是,他认为这是一个“也许相当好的……指标”;克罗斯和蒂勒显然也同意这一说法。在某种程度上,他们也许是完全正确的。但可惜的是,至少就他们的使用情况来说,许多学者可能会质疑他们的推论。其他学者可能会指出他们的尺度所隐含的一个假设,即所有共和党人都是保守派而所有民主党人都是自由派,并反驳称数据所表明情形的恰恰相反。例如,按照西格尔对总统的经济自由主义测量来说,吉米·卡特在意识形态上更接近理查德·尼克松,而不是林登·约翰逊。或者正如贾尔斯(Giles)及其同事指出的那样,“出身于同一政党的总统有着不同的意识形态偏好。艾森豪威尔不是里根派。事实上,经验记录证明一些民主党和共和党的总统候选人的投票偏好,其实没有重大差异”。学者们也可能会提出,里夫斯、克罗斯和蒂勒的另一个假设,即所有的总统都想任命那些反映了自己意识形态的法官,并不符合多项描述总统的各种动机的研究。最后,一些学者可能会反驳,这种测量忽视了法官任命过程的一项重要的制度特色,即参议院的礼貌否决惯例(senatorial courtesy),这可能会限制总统提名那些反映其意识形态的人进入下级联邦法院。
总之,确定项测量是可信的,并没有说明在多大程度上测量是有效的,所以我们必须同时确保效度和信度。不幸的是,评价效度比评价信度更困难。既然所有关于现实世界的结论都是不确定的,我们就必须要鉴别“有效”指的是什么意思。假设我们知道没有任何一种测量程序能够产生放之四海而皆准的真理,这就意味着我们必须承认,即便是“正确的”和“错误的”这样的概念,也可能只是与概率相关的分类。
为了在一个所有的决定和比较都不确定的世界中定义效度,学者们已经提出了各种标准,并将其适用于定量和定性的经验研究当中。我们可以考虑三种标准——表面的有效性、无偏见性以及实效。但是请注意,没有哪一个标准始终是必要的,这些标准合在一起也不总是充分的,即使合在一起经常有助于理解什么时候一个尺度更有效还是更无效。
第一个且最为基本的,是“表面”有效性。如果一项测量与此前所有定量的、定性的甚至是不正式的印象性证据相一致,那么这项测量就是有效的。表面的有效性并不是对合理性的一个偶然的、脱离实际的判断,而是要求对新的测量与之前的证据进行仔细比对。
因为大多数人都承认,并非所有民主党总统或共和党总统都是同质性的,所以法官政策偏好的测量标准若依赖于任命他们的总统所属的政党,那么这项测量可能就无法通过这一检验。但是考虑下由西格尔和卡佛提出来的另一项可能的[可以通过这一检验的]测量。为了推导出这项测量,研究人员对这一时段——从最高法院大法官候选人被提名到他们出席参议院听证会——的新闻社论,从内容上进行了分析:
我们对三名学生进行了培训,教导他们如何对[社论中的]每一个段落的政治意识形态进行编码。这些段落被编码为自由主义的、中间派的、保守派的,或者不适用的。自由派言论包括(但不限于)如下言论:支持刑事案件中的被告人,支持平权案件中的妇女与少数派,支持隐私权,支持以政府为被告的与第一修正案相关的公民权利。保守派言论则与此相反。中间派言论包括那些明显对提名人士保持中立或者既持有自由派价值观又持有保守派价值观的那些言论。
然后,他们在那些被编码为自由派的那部分段落中,删去了那些被编码为保守派的那部分段落,并按照自由派、保守派和中间派的编码将所有的段落进行了分类,并在此基础上测量法官的政策偏好。由此产生的政策偏好幅度从-1(完全保守的)到0(中间派)再到1(完全自由的)。表6的第一栏展现了他们的努力结果。
表6 评价1953年以来被任命的联邦最高法院大法官的政策偏好
我们很容易理解,为什么许多学者会认为这一测量表面上是有效的。一些例外确实是存在的(例如,沃伦大法官表现得比他的得分还要自由主义化;托马斯大法官表现得比他的得分更保守),但是该测量给出的总体结果还是符合学者们对大法官们的印象的。布伦南大法官和马歇尔大法官,通常被认为是自由派,得到了1.00的分数;斯卡利亚和伦奎斯特,一般被认为是保守派,分别得到了-1.00和-0.91的分数。
这是一种量化的测量标准,但定性分析所提出的那些测量标准,也很容易受到类似的表面有效性的检验。请考虑盖瑞(Gerry)所作的研究,该研究试图处理的问题是:州法院对美国宪法的解释是否与联邦法院有不同。为了回答这个问题,他将注意力集中在下级联邦法院和州法院对美国联邦最高法院对“诺兰诉加州海岸委员会案”(Nollan v. California Coastal Commission)判决的反应。为了发掘出不同法院在解释上的差别,Gerry提出了测量司法推理的若干种方法,其中之一就是下级法院对政府行为的遵从程度。在阅读了每一份司法意见之后,他将之编码为:(a)对诺兰案判决的“高度遵从”的解释,“法院仅仅要求政府行为者满足最低限度的手段—目的审查”;(b)对政府行为的“适度遵从”;(c)那些对诺兰案判决的“非遵从性”解释,“要求着手审查的法院对政府在规制土地使用方面的行为,进行追根究底的探究”。如果我们熟悉盖瑞这项研究中的案件,我们就会像西格尔和卡佛的打分那样去分析表面有效性,也就是说,扪心自问盖瑞的测量方案所产生的总体结果,是否符合我们以前对这些案件所使用的推理方式的认知。
除了表面上有效之外,测量还应该大致上没有偏差。如果一个测量程序所产生的测量结果经过重复应用,总体上仍是正确的,那么这个测量程序就是没有偏差的。换言之,倘若我们在大量受测对象上使用相同的测量程序,那么这个测量有时会很大,有时会很小,但是平均而言它还是能够产生正确的答案。假设我们让100个人站在体重秤上,如果体重秤显示的结果有点偏重或偏轻,但是偏重和偏轻这两种错误在程度和数量上大致相等,那么体重秤可能是没有偏差的。程序有偏差的一个例子,或许是要受测对象自报体重。有可能一些人会给出准确的答案,或者大致上正确的答案;一些人可能会回应社会情境,低估自己的体重。既然低估值没有办法被类似的一组高估值抵消,那么就会产生有偏差的测量结果。
这个例子凸显了一个重要论点:提出一种有偏差的、依赖被分析的总体对象作回应的程序,往往最易产生带有偏差的测量。假设我们问联邦最高法院的大法官们,他们在布什诉戈尔(Bush v. Gore)一案中的投票是否反映了其政治偏好。正如同人们理所当然会低估自己的体重一样,大法官们也可能会说不,并声称自己是根据某些中立的原则投票的。更概括地说,就像事实证明的那样,让某人说明自己的动机,本来就是最糟糕的动机测量方法。人们经常不知道,或者没有办法详细解释为什么自己要那样做。在某些情境下,他们会拒绝说明。在另一些情境下,他们的行动或者对学者所提问题的回答,有可能是策略性的。让大法官们回答自己是如何作出决定的,就是一个明显的例子。过于依赖这种一般测量程序的法学家,应该吸收这个教训。请考虑米勒对局部偏见是否会导致律师在管辖权竞合的情况下向联邦(而不是州)法院起诉的研究。我们之后会更详细地讨论这份研究,但是现在只要注意米勒为了评价那些他认为相关的因素而对律师进行的调查,这就够了。这一策略的问题在于,律师可能有动机不告诉研究人员他们的真实偏好,假设他们知道这些研究人员会提出并行管辖权方面的政策建议。例如,希望维持既有管辖的律师,可能会提供他们认为能够支持管辖权竞合的最为“正当的”理由,而不是那些反映他们的真实偏好的理由。
针对这类情况,必须要提出富有创造性的测量程序。所以,与其(或者有时候除了)让应答者直接回答研究问题,还不如寻找显性的偏好(revealed preferences),而这种偏好是能够在实际行为中直接观察到的动机的理论的结果。适用到研究上就是:既然米勒已经知道律师们向哪家法院起诉了,他就没有必要再问律师们为什么要向联邦(或州)法院起诉。
当然,即便研究人员设计出了“富有创造性的”尺度,他们仍然需要判断这些尺度是否没有偏差并且具有表面上的有效性。一般来说,只有当他们已经有某种尺度,或者提出了一种能够和原来的尺度进行比较的新尺度,才能够作出那种判断。只有将体重秤所显示的数据和其他体重秤进行比对,并且我们知道后者是准确的,我们才能够知道前者是高估还是低估了体重。西格尔和卡佛的打分也是如此。要理解为什么它们是有偏差的,我们也许还需要别的测量大法官政策偏好的尺度,大法官们的显性行为就提供了这样一种尺度,例如,他们在民权案件中投出的自由主义票数的百分比。然后,我们可以将这个分数和票数(参见表6)进行对比,从而判断偏差(如果有的话)的程度。
这个进路并不是适用于定量研究。假设威廉姆斯或者其他研究某一部法案之立法史的学者,提出了我们在上文所说的那种分类方案:某个文件或者发言人是否支持该法案的某种解释。如果威廉姆斯最后将所有发言和文件都归入到支持类,但之前的学者却有不同的结论,我们就可能会怀疑这一测量程序是不是有偏差。然后,我们可能会建议威廉姆斯采取我们所推荐的、用来评估西格尔和卡佛打分的那种步骤:提出另一种测量进行交叉比对。在这种情况下,收集学者们对威廉姆斯所分析的那部法案(1934年《证劵交易法》)的所有分析,可能是有帮助的。威廉姆斯的解释不需要和其他人所提供的如出一辙,但是她应该解释为什么会存在差异,提供理由说明为什么之前的研究是错误的,并且分析之前的研究得出其结论的理由(也许是因为不同的测量程序)。
与无偏差性相关的是判断效度的第三个重要标准,即功效(efficiency)。功效能够帮助我们在几种没有偏差的测量之间进行选择,其基本理念是选择差异程度最小的测量。例如,如果我们拥有两种体重秤,每一个都是无偏差的,但是其中一个的误差要小很多,那么我们就应该选择那个体重秤。换句话说,功效指的是无偏差测量的可靠程度。
要理解这对经验研究的寓意,让我们回到克罗斯和蒂勒的研究。尽管两位作者用任命法官的总统所属的政党,来表示巡回法院法官的政策偏好,但也可能存在许多别的测量方法。贾尔斯(Giles)及其同事就提供了这样一种测量。该测量借助于普尔(Poole)提出的总统在公共空间计分(common space scores),考虑到了总统的政治偏好;借助于普尔和罗森塔尔(Rosenthal)提出的针对参议员的公共空间计分,也考虑到了因为参议院礼貌否决而涉及法官任命过程的参议员的偏好。从他们的理论研究中我们知晓,克罗斯、蒂勒以及贾尔斯的测量都能够大致地预测法官将如何投票。也就是说,就许多法官而言,他们的研究都可能得出相同的答案,即它们是没有偏差的。但是我们还知道,在某些时候、对某些法官而言,克罗斯和蒂勒的测量所得出的预言经常是不准确的。因为该测量是缺乏功效的(inefficient),它没有考虑到与任命过程相关的一些信息。事实表明,那些信息很重要:如果参议员和总统属于同一政党,而空缺的席位来自参议员所在的州,那么参议员就可以对法官的遴选施加可观的影响。参议员的影响有时候会助产更加自由主义的法官,有时候则是更保守主义的法官,因此一般来说不会产生任何偏差。但是省略此类信息恰恰就造成了缺乏功效。正是因为这个原因,我们才更倾向于优先考虑贾尔斯他们的测量,而不是克罗斯和蒂勒的测量。
更宽泛地说,假设研究者面对两种没有偏差的测量,一般而言他们应该选择更有效的那种。对比建立在更多信息基础之上的测量程序(例如贾尔斯的)和建立在更少信息基础之上的测量程序(例如克罗斯和蒂勒的),前者比后者更细密地聚集在正确答案周围。结果是,对比更多信息的测量和更少信息的测量,前者可能产生更加接近真实情况的答案。
正如迄今为止我们的例子所表明的那样,这一点对定量研究而言是成立的,对偏于定性研究来说也是如此,例如试图识别某一部法律的立法史是否支持关于该法的某种特定解释的研究。考虑下威廉姆斯对于1934年《证券交易法》的研究主题:立法史是否授权证券委员会要求某种程度的社会责任信息揭露。假设威廉姆斯通过分析国会两院议员的发言内容来测量立法史,而且仅仅是发言,那么毫无疑问的是,如果我们有办法知道“真相”——国会成员的实际意图,那么威廉姆斯的进路有时候反映了它,有时候则没有。如果发言揭示了国会的意图(正如它们有的时候确实会这样),威廉姆斯也许能够获得正确的国会意图;如果发言是因为别的理由作出的,比如说为了取悦选民,那么威廉姆斯也许无法获得那个意图。但是,这并不一定意味着她的测量就是有偏差的,因为无偏差这个概念指的是测量没有预设某种方向。如果立法者所给出的发言,是为了向选民解释他们的立场,而不是要详细说明立法史,那么这样的言论未必就能够支持一种制度上更高或者更低程度的社会责任信息揭露。现在假设出现了另一位研究者,他通过考量发言、委员会的报告、证词等内容来测量意图。即便再加上所有这些信息,这一进路同样不可能每次都产生正确的答案,因为一些相同的混合因素(比如,为了取悦选民而作出发言的立法者)也会影响测量。但要再次说明的是,如果这些测量策略实际上是没有偏差的——大致上是正确的,但是并不是每次适用都是正确的,我们也许会偏向于第二种,因为它是建立在更多的信息的基础上的,它比第一个更有功效。
我们还可以继续讨论,因为关于测量的学术文献浩如烟海,而且我们尚未对这些文献进行过总结。事实上,所有学科研究领域都在努力测量心理健康、身体健康、收入、交易、幸福感、调查回应(survey responses)、智力以及其他形形色色的问题。我们写这篇文章并不是想规劝法学教授沉浸在这些令人眼花缭乱的文献当中,而是进行提醒(换句话说,我们只是对这个话题点到为止)。并且更加重要的是,强调法学研究不应该在真空中进行。假如相关研究要测量收入水平,那就和经济学家交流;若要测量民主,那么不费吹灰之力就能找到几个在这个话题上花了大半辈子时间的政治科学家和社会学家。
(二)估算
估算(Estimation)是更为明显的测量。其理念是将推论任务分为两个步骤。首先,研究人员对某个事物进行多种测量,这意味着他们最后要对观察单元进行推论。为此,他们必须决定用什么样的测量标准、具体怎么样测量、如何根据该测量选择观察结论,然后是选择用什么样的方法从中推演出观察结论。例如,那些希望研究立法意图的人,必须要选择一种立法意图的测量尺度,该尺度必须是可靠的、有效的(例如,国会发言、委员会报告等等)。然后,就像我们在第八部分所讨论的那样,他们必须说明自己准备如何选择他们的观察结果,从而可以对总体对象进行推论。例如,他们是考虑所有的国会言论,还是随机抽取部分言论,还是选择那些对他们而言能获取到的言论,还是诉诸其他方法?最后,他们必须要收集那些观察结果并对它们进行编码。对立法意图的研究来说,这相当于确定每一份发言(一个观察单元)是支持还是不支持对立法意图的某种解释。
在第二阶段,研究人员也要进行推论,不过那是在总体对象层次上的推论,而不是观察单元层次上的。这需要确定总体对象的相关数值,并使用一组尺度来进行估算。假设研究人员对国会发言进行随机抽样(每一个发言组成一个观察单元),那么对于某一次发言是否能够支持对立法意图的某种解释,他们很可能不怎么感兴趣。他们想要知道的是,如果他们收集了所有的发言,那些发言是否在平均水平上支持对立法意图的某种解释?然后,他们会使用一系列尺度来估算总体对象的这个数值,也就是中数(mean)。
要评价好的估算,我们同样可以使用前面讨论的测量的两个标准——无偏差和功效。对此,我们还可以增加另一个标准——一致性。一致性的理念是,如果我们在评价过程中纳入更多主体的更多测量,我们就会越来越接近真相。在上文的例子中,研究人员能够收集的国会发言越多,他们的样本的中数就越接近目标总体的中数。
在法律评论中很难找到这样的例子。或许这并不是因为它们不存在。我们猜想问题在于学者们未能精确地列出他们进行估算的程序。在定量的法学研究中,能够看到证明这一情况的证据。但是在定性的经验法学研究中,这种情况更常发生,例如对立法意图的教义学分析或者调查。在这些研究中,学者们很少详细说明,自己是怎么确定法院判决或者立法材料在平均水平上支持自己所提供的解释的。
令人遗憾的是,这恰恰是作者们希望做,并且实际也在做的事——作出这样的估算。然而未能阐明自己的研究程序,使得他们的推论过于不确定。考虑一下克雷默(Kramer)是如何回应那些韦斯勒(Wechsler)所著《联邦主义的政治保障》的批评者的,该书主张“州作为政府实体以及现有法律的渊源,本身就是我们当下联邦体制的主要决定因素,这从一开始就决定了国家立法过程的性质和范围”。按照这种解释,各州无须寻求联邦最高法院来阻止国会侵犯自己的权力。事实上,联邦最高法院“为了各州利益作出与国会针锋相对的宪法解释时,它这样做是缺乏依据的”。韦斯勒的批评者反驳说,制宪者“希望并且预期联邦最高法院保护各州以防止国会越权”。当克雷默试图整理这些相反的主张时,他原本应该依据推论规则去发掘历史性记录和案件记录,并且(在这里特别重要)估算在之前法院的判决在多大程度上基本支持韦斯勒或者批评者的论断。但克雷默并没有选择这些步骤。相反,这篇论文充满了“估算”(例如,大法官们“在南北战争之前的整个时期都未曾限制联邦对州的权力”),而我们并不清楚他是如何得出这些估算的。
同样的问题也困扰着Lin的一项定性研究。Lin研究了法院在同性领养案件中所使用的“传统的”叙事方式,这种叙事方式使男同性恋或女同性恋很难建立家庭。和克雷默一样,Lin提出了很多估算。例如,“法院往往支持这样一种错误观念,即同性恋父母通过和孩子的共同生活,某种程度上导致这些孩子长大后成了同性恋者”。Lin只用一连串的引用来证明这个估算。
这是否意味克雷默和Lin的估算就一定有误差呢?不是。但他们未曾阐明得出这种估算的程序,所以我们不可能知道误差究竟存在与否。我们根本无法肯定,这两位研究者提供的估算是否支持他们的结论。
八、选择观察结果
正如上文所言,测量和估算之间的一个重要纽带是对观察结果的选择与收集。这里的问题是:研究者该如何选择观察结果,以将其整合入自己的研究当中呢?假设一位学者想通过对法院判决的分析,来搞清楚为何法官会偏离《美国量刑指南》。那么,对于如何收集相关案件的数据这一问题,他应当如何决定呢?想通过访谈警察来研究他们是否遵守米兰达规则的研究者,又该怎么做呢?研究者如何选定他要访谈的警察呢?
回答这个问题需要遵从很多规则。接下去我们将审视四条规则:(1)确定需要研究的总体对象;(2)尽可能收集足够多的数据;(3)记录观察数据的过程;(4)收集数据时避免选择性偏差。不管研究是定性的还是定量的,这些规则对作出有效的推论来说都至关重要。
(一)确定目标群体
当我们为了作出推论而收集数据时,一个重要的步骤是确定目标群体(或者“相关的总体对象”)。对象不一而足,包括案件、地区或者在特定时段内的其他单元,在时间和资源允许的条件下研究者会尽可能收集与之相关的信息。如果目标是估算美国的人口平均年龄,那么相关总体对象就包括所有目前生活在美国的人。在这里,调查人员必须明确并且准确地界定“人”、“美国”、“生活”、“年龄”的定义。应该能够(最起码必须是基本上,即便不是实际上)收集关于这个总体对象的所有成员信息,这个总体对象的定义必须足够明确,对谁应该包括在内谁要排除在外不能模棱两可。
这个任务看似很简单,但法学文献中的许多例子表明情形并非如此。请考虑弗雷德曼(Friedman)对“反多数难题”发展过程的细致检讨。“反多数难题”是比克(Bickel)创造的术语,用来表述允许非民选法官推翻民选代议机构所通过的立法的“难题”。在描述其发展进程时,弗雷德曼试图驳斥一个传统观点,即对最高法院司法审查实践的批评“从洛克纳时代一直延续到新政”, 而那些批评大同小异。为此,弗雷德曼详细分析了民粹主义/进步主义时期和新政时期出现的一些具体批评。就前一时期而言,他提到的其中之一是西奥多·罗斯福的评论,“在这里是由法院决定是否……人民享有自己的意志”;就新政时期而言,他引用了一位“记者”写给富兰克林·罗斯福的一句话,“那9个老家伙,年纪加起来都快650岁了,应该得到额外的关照”。
因此,弗雷德曼的目标是得出一种描述性推论,也就是说,利用这些引述提出关于总体的一般主张。但是总体是什么呢?是任何人对最高法院的批评吗?是那些向政治人物提出的或由政治人物提出的批评?是媒体上的吗?是记录在历史书籍当中的吗?研究的时间区间怎么限定?新政时期是始于罗斯福总统的当选,还是他的第一批经济措施?新政终止于第二次世界大战,或罗斯福总统逝世,还是别的什么?从弗雷德曼所举的例子和叙事来看,我们很难回答这些问题,因为他从来就没有明确说明自己进行推论的目标究竟是什么。经验研究要求尽量减少模糊性,因为如果没有清楚地指明总体对象,我们就无从评价推论的好坏及其结论的不确定程度。即使弗雷德曼无法(不管是出于什么理由)调查总体对象当中的每一个组成部分,他都应该明确说明该总体对象是什么,并且至少在理论上能够辨识总体对象的所有成员。一个极重要却又很普通的一般性观点是:倘若目标很明确,那么研究者可以较轻松地实现这个目标。
弗雷德曼的研究是一种定性研究,但上述情形对定量研究来说也同样适用。一个例子是韦耶(Veilleux)的调研报告,她假设了联邦法院裁决暂缓执行的比率下降的主要原因是:法院对“滥用令状”(abuse of the writ)原则的解释发生了变化,并越来越关注州的利益。为了调研这些说明性理由,也就是说,为了作出因果关系的推论,她以1981到1995年期间联邦最高法院、第五和第十一巡回上诉法院以及上述巡回区内所有联邦地区法院所公开印行的暂缓决定作为样本,进行了检验。韦耶告诉我们的就这么多。然而她未曾交代清楚的是,她要对什么样的目标群体作出因果关系推论。是从1981年以来所有联邦法院作出的所有暂缓决定吗?还是所有公开印行的暂缓决定?抑或是1981年以来所有公开印行的暂缓决定?
上述三种总体对象的最后一个似乎最有可能,但是我们不应该妄加猜测。但在下面这个例子中我们不得不进行猜测,这就是菲舍(Fisher)试图解释为何辩诉交易如此根深蒂固的论文。文章一开始,菲舍就写道:
我们需要从辩诉交易的发展过程获知其力量的来源。我将会说下美国的辩诉交易制度的发展过程,因为虽然最早的辩诉交易或许发生在别的地方,虽然辩诉交易迟早会推广到整个普通法世界及其以外,但它首先是在美国获得成功的。在美国国内,我将重点讨论马萨诸塞州……在马萨诸塞州,我将重点讨论它最大的县——米德尔塞克斯,……我曾经在那里担任检察官,这个经历让我熟悉当地法院的运作方式,且或许更能注意到其中的发展变化。在米德尔塞克斯地区内,我最关心的是当地司法体系的中间阶层,后者对除了严重刑事犯罪之外的所有案件享有管辖权。
但是菲舍的推论的真正目标是什么呢?基于他的描述和我们对他论文的解读,也许是以下任何一个地方的辩诉交易:(1)全世界;(2)美国;(3)马萨诸塞州;(4)米德尔塞克斯,马萨诸塞州最大的县市;(5)当地司法体系的中间阶层;或者别的其他地方。这份可能性清单似乎没有边际,但它不应该也不需要如此。作者应该说明每一个推论的目标。
(二)收集尽可能多的数据
不管是描述性的还是因果关系方面的推论——运用已知的事实去获知未知的事实——都需要事实。知道更多的事实(还有本文所给出的规则),会让推论变得更好。所以,回到上文的例子,假设弗雷德曼想依据在进步主义/民粹主义和新政时期批评最高法院的意见类型提出主张,也就是说,利用他已知的批评意见得出总体批评意见方面的结论,那么他应该收集尽可能多的批评意见(对韦耶和菲舍来说也是如此)。
简单地说,若有机会收集更多的数据,我们当然要好好利用。我们在判断经验研究的好坏时,也应该看研究者用了多少信息来作做出推论。如果一位学者将他或她的推论建立在很少的信息基础上,那么任何结论都是极不确定的。但是,如果他或她能够收集到大量的信息,那么其研究对于所设的研究问题的答案或许是相当确定的,甚至能改变法学研究的进程或者提出影响到众人的公共政策。
鉴于所有观察结果都是不确定的,并且所有观察结果的来源也许有着不同类型的测量错误,所以我们关于收集更多数据的建议,并不仅仅或者必定意味着收集更多的同类数据(比如说增加观察结果的数量)。事实上,收集不同种类的、来自不同渊源的数据,也许特别有用。
在某种意义上,这个建议将我们带回到我们之前的建议,即罗列出一个理论表现出来的全部寓意,包括那些因研究者缺乏时间或者手段而无法予以表现出来的寓意。要理解这一点,不妨重新考虑下韦耶对驳回暂缓执行裁决的数量增加所提供的一个解释:联邦法院对州的遵从。假设这个理论是成立的,那么研究人员就能够提出可观察的寓意,这些寓意超出了所分析的特定法律领域;也就是说,如果联邦法院在关于谁来执行这个问题上遵从州,那么它们在其他领域中也可能会同样遵从。然后,Veilleux可以测量并且收集这些其他领域的观察结果,从而贯彻了“数据越多越好”这一推论规则。
但是这条规则并不仅限于罗列可观察的所有寓意,它还要求研究人员进行广泛研究、收集不同种类的数据,即便只为了某个特定的寓意。假设弗雷德曼感兴趣的是各类人士(包括公民、学者、政治人物和其他人)在新政时期对最高法院所提批评的意见类型,那么他或其他人能够收集的数据种类都会是相当多样的:人类学的、人种论的、历史学的、档案学的,还有调查研究,数据汇编,与部分人士的深度访谈,不同法院之间的对比,乃至不同地区之间的对比,等等。
我们并不是说学者们应当花费经年累月的时间,为每一个研究计划收集数据。我们承认,许多其他的制约性因素,除技术因素外还包括个体和职业的因素,对研究结论也影响重大。但是,如果研究者能够作出选择的话,那么他们应当始终把数据放在第一位。如果他们能轻松地采集到数据,即便这些数据和其研究计划只有部分相关性,那么他们就应当进行采集。假设用于其他研究计划的数据收集程序,稍加修改就能运用在研究者的研究计划之中,那就用吧。既然经验研究面临的主要任务是作出推论,那么以一种恰当的方式将推论建基于更多数据之上是可取的。
(三)记录观察数据的过程
不管研究人员怎么选择的观测结果,有效的推论需要有关数据产生过程的信息。一份研究如果没有充分说明研究人员观察数据的过程,那么这份研究就不可能被重复,从而违反了我们在第二部分讨论的规则。同样重要的是,这种情况打破了已知事实与未知事实之间假定存在的联系,导致我们无法对总体对象作出推论。最后,正如我们在下面所揭示的,只有知道研究人员获得数据的过程,研究人员才能够判断自己的推论是否存在偏差。
我们可以列出一长串未曾采纳这一建议的法律评论论文。其中许多论文是定性的,例如Friedman、Lin、Kramer等人的。但是,定量研究同样会违反这一重要的推论规则。在第二部分我们指出了两份研究,Mann对抵押贷款的检讨,以及Eisenberg团队对刑事案件陪审团判决的研究。但是,还存在许多违反该规则的其他研究。Anderson和Rowe对多元法律规则如何促成诉讼当事人和解的研究,就是一个有趣的例子。为了回答这个问题,两位研究人员向大约1310位律师寄送了一份电脑软盘(内含一个“互动式”诉讼模拟程序)。(我们之所以说“大约”,是因为从他们的描述来看,我们没有办法明确他们一开始的样本数量。他们只告诉我们131位律师完成了这一模拟,即应答率“大约10%”)。但是他们是如何抽取相关样本的呢?对于研究数据的获取过程,他们只是说,一开始他们从培训法官和律师的全美法院协会(the American Inns of Court Foundation)那里,获得了一份律师名单(多少人我们不知情)。然后,他们“向被选定的律师协会的开业律师发送材料,选择依据是地理分布和所处城市大小情况”。基于这一描述,我们可能会推测最终的131份样本存在偏差(比如说,偏向于有足够的时间且知道如何操作电脑模拟程序的律师),但是因为研究者实际未能提供关于数据获取过程的信息,我们也不能排除其他许多偏差。
这导致他们对某些法律规则是否会促成律师之间的和解所作的推论,最多只对由131位律师(他们自身并不是意向群体)组成的最终样本有效,对他们想要调查的1310位律师构成的意向样本而言不一定有效,对所有律师这个目标群体而言则可能是无效的。总体对象和最终被观察到的样本之间的唯一联系,是数据观察的过程。所有试图利用某个样本的数据去认知总体对象的推论方法,都要求有关这一过程的知识。如果没有这种知识,我们就只能对那些容易获取的事实提出一些无法验证的理论假设,并作出一些远远不够精确的实质性结论。
再举一例:米尔斯(Mills)对州政府和临床医学在帮助被家暴妇女方面的手段比较。在该研究中,她假设州政府的某些干预措施——例如强制拘留和逮捕实施家暴者——对受害妇女来说弊大于利。为了评估这一主张,米尔斯进行了她所说的“临床分析”,也就是将社会工作者和其他临床医生在治疗那些受家暴的妇女时所使用的手段,和州政府使用的手段进行对比。进行对比的方式是:一方面,考察临床医生所著的书和论文中指定的做法;在另一方面,考察一些被挑选出来的州政府的做法。(为了一次分离出一个方法论问题以备讨论,我们暂且假定这些资料来源代表实际的经验性做法,即便我们有理由质疑这一点,并且事实上很可能应该对它们进行单独的经验性探究。)
既然米尔斯并未具体说明她的推论目标(至少就临床手段而言),那么让我们假设这个目标就是临床医学家们在书本和论文中指定的做法。同理,既然她没有披露自己是如何选择特定书籍或者论文进行分析的(事实上,我们作为读者只能确定她没有收集临床医学家在著述中所指定的每一种做法),那么我们进一步假设她在研究当中所分析的那些观察结果,代表了普遍存在于法律评论论文中的两种遴选机制:研究人员对于纳入什么样的观察结果,行使了彻底的裁量权(这种情况有时候被称为“目的性抽样”);或者,研究者之所以选择这些观察结果,是因为它们很方便或很直观(被称为“便利性”或者“随机抽样”)。如果米尔斯就是按照其中一个做的,那么这两种偏差可能会影响她的抽样并因此影响她想作的任何推论,这是完全可能的。这种偏差可能会在一些观察结果的样本中证明自身的存在,因为它不恰当地支持她想要的结论(选择她相信能够帮助妇女的临床手段),这种偏差将出现在观察结果的样本之中,或者以我们不久前描述的那种更微妙(但同等有害)的方式出现。现在,假设米尔斯是根据总体对象的全部要素——临床医学家在著述当中指定的每一种做法的全部要素,进行数据采集的。(我们继续假定这些著述代表了经验实际)那么很显然,上述偏见将不复存在。通过纳入临床医学家们建议的所有措施,“样本”将不再局限于米尔斯的论点所支持的那些做法。
(四)弄清楚产生潜在观察结果的过程
如果研究者采集的是不具有代表性的样本,那么他们的研究就会存在偏差。同样,产生一系列潜在的可观察数据的世界若与目标群体存在系统性差别,也可能会使推论发生偏差。如此一来,即便研究者遵从了我们的建议,并采集了总体对象的全部要素,他们仍可能无法得到关于总体对象的有效推论。
假设现实世界(而不是调查者)使用了一条抽样规则,导致在即便考虑了解释性变量(X)的情形下,总体对象中的一些事项仍然莫名其妙地与因变量Y存在相关关系,那么研究者就要特别当心。不幸的是,这一假设的情形在法学界经常发生。最典型的例子是这类研究:推论完全建立在公开的司法意见上,而不是建立在公开的司法意见与未公开司法意见共同组成的全部总体对象之上。例如Kerr的研究,他试图解说“后谢弗林时代”法院对行政决定的司法审查。正如我们在上文曾讨论过的那样,他提出的解说之一,是一种语境化的理论:法官们在裁判谢弗林这样的案件时继续使用“传统的”标准,而不是两阶段的谢弗林检验。换言之,法官们和最高法院对着干。为了评估这一解说,克尔(Kerr)收集了1995—1996年公开印行的、适用谢弗林规则的所有巡回法院判决的数据。现在,假设米尔斯只想得出巡回法院法官在1995—1996年公开的司法意见中是如何对待谢弗林规则的推论(换句话说,如果这就是米尔斯的推论目标),那么他的方法是完全没有问题的。因为这样一来,该研究确实遵守了我们关于采集总体对象的所有要素这一建议。但是,假设Kerr还想就美国上诉法院如何对待谢弗林规则提出一些更为一般性的主张,就像他在结论部分所做的那样,那么其推论就缺乏依据。这是因为实际的法律世界,并不是他所设想的那样的。那个世界实际由法官掌控,在给定变量X(决定司法意见是否公开印行的规范)的情形下,这个世界启用的抽样规则可能与变量Y相关。尽管这一规范要求法官只公开那些具有“普遍的先例性价值”的司法意见,但是更多的文献表明这个规范过于模糊,可能会允许巡回法院法官单凭自己觉得合适与否,来选择公开或不公开司法意见。
就像已有文献所表明的那样,假设上诉法院法官是策略性地行使自己的裁量权权限,即为了避免自己的判决被推翻,而只公开那些遵循了最高法院先例(例如谢弗林规则)的司法意见,不公开那些未遵循先例的司法意见。如果真是如此,那么克尔只根据公开的司法意见所进行的任何推论都可能是有偏差的,即偏向于一种可预测的方向:他会高估谢弗林规则的效果。克尔很可能已经这样做了。基于自己的数据,他得出结论:巡回法院法官们在审理谢弗林那类案件时没有继续使用传统的“因素”,而是诉诸谢弗林规则,即“令人惊奇的是,预测谢弗林规则之下的判决结果的最好指南,似乎就是谢弗林检验标准本身”。或许克尔是对的,但是既然他的分析由于抽样规则的缘故而存在偏差,并且这种偏差与因变量高度相关,那么他的结论就是站不住脚的,而且可能和经验现实恰恰相反。
(五)在大样本研究中,进行随机概率抽样
如果说环境使研究者没有办法收集总体对象的所有成员的数据,但研究者有办法收集大量的观察结果,那么他们应该随机抽取样本。在随机抽取的样本中,总体对象的每一个要素被抽到的概率是可知的(也许是相等的)。
在我们解释选择这一策略的好处之前,我们要明白它意味着什么:随机可能性抽样涉及辨别总体对象,以及根据已知的概率规则选择一个子集。要做到这一点,必须赋予总体对象一个被选中的概率,然后根据这些概率将之选入被观察的样本。因此,随机选择不是随意选择或者根据便利选择。随机抽象必须遵守非常具体的规则,并且在大样本的研究中,只有当研究者有意选择随机抽样时才会进行。
随机概率抽样有几种不同的形式。在同等概率抽样中,对总体对象的所有观察,都有同等的概率被纳入研究之中。假设研究者想通过分析法院的判决,来了解为什么法官们会偏离《联邦量刑改革法案》的指导准则。如果她有一份清单,上面列全了1000个(1000代表假设的数字)与这部法案所规定的指导准则相关的案件,而她希望从中抽出100个或者10%作为样本。同等概率抽样是指每一个案件都有同等的机会被选中,且仅仅选择100个。一种抽样方法是,从“整数1—1000的均匀分布”中抽出100个数字。这个过程相当于在扑克筹码上写上数字1到1000,把它们混装在一个桶中,随机选择一个,写下数字,再把筹码丢回去。重复上述过程,直到调查者获得了一份写有100个数字的清单。
如果研究者持有一个关键的因果变量,那么这一进路就会遇到一个问题。假设我们想知道联邦地区法院法官所属的政党对于偏离量刑指南行为的因果关系效果,例如,我们设想较之民主党法官而言,共和党法官更可能偏离量刑准则(从严量刑)。假设我们有办法选择100个案件,并且我们采取的是同等概率随机抽选,我们可能会得到一个共和党法官也没被抽中的一份样本,从而就没有办法进行因果关系推论。即便最后得到的样本是民主党法官大大多于共和党法官,我们所作的因果关系推论的功效,也会比二者均等的情况下更低(离散程度更高)。
为了预防偶然性事件带来的效率低下,学者们通常会使用分层随机抽样法,即在另一个变量的每一个子类别内,进行独立的同等概率随机抽样。在量刑这个例子中,根据关键的解释性变量进行分层也许特别有用。因为这样一来,能保证在共和党法官和民主党法官的分类中获得固定数量(推定是相同数量的)的观察结果,从而可以在样本数固定的约束条件下最大化估算方法的效用。相关研究者要做的,首先是根据法官所属的政党将案件进行分层(也就是说,创造两个列表,一个是共和党法官审判的案件,另一个是民主党法官审判的案件)。其次,假定研究者想从民主党法官和共和党法官审判的同等数量的案件中,采集一份由100个案件组成的样本,那么她将通过同等概率抽样从每一个分层中抽取50个案件。
既然上述样本都是不同类型的随机概率抽样,那么为何当研究者拥有关于总体对象的大量观察结果时,我们还是建议使用这类样本呢?毕竟,我们一直在这篇文章中建议“数据越多越好”。既然如此,我们为什么要建议忽视我们所拥有的、与能够被选择的潜在观察结果相关的信息,并根据用来确保忽视所有这些辅助信息的随机数字生成法来选择观察结果呢?主要理由是,随机选择是大样本研究中唯一的选择机制,这种机制自动地保证了不存在选择性偏差。那是因为,当我们使用随机抽样时,我们就通过定义来保证在研究过程中,抽样规则与变量不存在任何关联。在论及米尔斯的研究时,我们就提出了这个一般性观点。但在这里,我们可以说得更具体一点。假设米尔斯使用了一条抽样规则,该规则使她只选择那些看上去对妇女有害的州政府的措施,并且只选择那些对妇女有利的临床手段(换言之,选择那些能够支持其理论的观察结果)。那么我们可以说,米尔斯使用的抽样规则使她的样本偏向于其理论。我们还可以说,之所以如此,是因为米尔斯根据她的因变量(换言之,应对受到家庭暴力的妇女的措施)来选择观察结果,即仅仅选择那些能够支持自己的论点的因变量的值(“有害的”州政府措施和“有益的”临床手段)。
若依据从总体对象中随机抽样的抽样规则,米尔斯就不会单单挑选——不管是有意还是无意的——那些支持其论点的观察结果。如果使用恰当,随机选择也不排除出现偏差的可能性,但大样本意味着这种可能性是非常小的。当然,这并不是说米尔斯的抽样规则和随机选择,就一定会产生不同的结果。米尔斯的抽样规则或许是无偏差的,但鉴于其文章并未交代清楚数据的实际产生过程,我们也就无从得知了。
更概括地说,除非研究者采集了关于总体对象的全部观察结果并且该总体对象本身是现实世界以一种没有偏差的方式呈现出来的,那么随机抽样就是唯一有效的抽样规则。因为它能够有效避免在选择观察结果时,抽样规则与因变量甚至其他任何变量相关联或存在相关关系。事实上,不管抽样规则的设计多么谨慎,既然该规则是建立在人类知识的基础之上的,它就不可避免地与需要研究的结果变量相关,从而会导致偏差。因此,尽管随机地选择观察结果(而不是运用我们所有的知识来进行选择)确实违反了“数据越多越好”这一基本准则,但是我们还是容忍抛弃某些信息,以免不经意地导致选择性偏差。
尽管我们建议在大样本研究中使用随机选择策略,但还是要附加两点说明。其中一点仅适用于大样本研究,我们将在下一节予以讨论。另一点无非就是:研究人员单凭使用科学性措辞或者在研究当中引入某些随机抽样要素,并不意味其研究就可以避开选择性偏差了。我们业已看到:如果一组潜在的可观察到的数据与总体对象存在系统性偏差,那么若非足够谨慎,源于这些数据的随机样本所得出的推论将是有偏差的。
可惜的是,存在这一问题的法学论文在法律评论上俯拾皆是。其中一个例子,就是米勒的研究:存在并行司法管辖权时,是什么样的因素(这些因素就是他的研究的自变量)促成律师选择向联邦法院或州法院起诉(诉讼地的选择就是因变量)。联邦法院系统存在明显的案件承办压力,这就构成了一个严肃的问题。这个问题得到了美国法律协会、国会、许多学者以及首席大法官伦奎斯特的关注,伦奎斯特甚至还任命了一个委员会来进行研究。或许无须惊讶,这些意见主体对是否还有必要维持并行管辖权存在分歧。例如,首席大法官的委员会得出结论说,并行管辖权之所以存在的一个主要理由——担心州法院存在地域偏见,已经不复有效。美国法律协会明确反对这一结论,学者们的反应是毁誉参半。那么,毫无疑问的是,如果米勒真的像他所声称的那样进行研究,即根据律师对调查问卷的回应进行“随机”抽样,并在此基础上对律师为何选择在此地诉讼而不是别处进行有效的推论,那么他对相关理由的分类可能会进一步激起学术界和公共政策圈的论辩。
相反,米勒所做的是:(1)试图获得所有向联邦法院起诉的各州所有案件的清单——这个努力之所以失败了,是因为州法院显然未曾保留这些信息;(2)作为替代,获得一份1987年所有申请管辖转移的案件的清单(n=18860)。在那些案件中,原告选择向州法院起诉,但是被告申请转移到联邦法院审理;(3)“随机选择”(通过某些未曾使用的方法)其中的600个案件;(4)将调查问卷发给与这600个案件相关的1092位律师;(5)回收到482位律师的答卷,并对这些答卷进行分析(答卷可用率是44.1%)。
为什么这个看似依据随机抽样的程序,最终却失败了呢?问题在于,米勒选择案件的方式和他的因变量——律师们对诉讼地的选择——是相关的。米勒所调查的原告方律师想要在州法院进行诉讼,而被告方律师想要在联邦法院进行诉讼。首先,这意味着他的研究导致一种带有偏差的描述性推论。米勒选择的样本,仅限于是向联邦法院还是州法院提起诉讼之间作出了选择的那些原告方律师和被告方律师。基于这一样本,他就无法讨论所有面临两种选择(包括未曾做出选择)的律师所组成的总体对象。这还意味着,他所作的所有因果关系的推论,都将是有偏差的。我们甚至可以具体说明这种偏差的方向。若是只关注那些不想在州法院进行诉讼的被告方律师,米勒可能会高估地方性偏见等因素的重要性;若是只关注那些想要在州法院进行诉讼的原告方律师,他可能会低估这些因素的影响。(要理解这一点,不妨设想这样一份研究:将那些不愿意将案件移送联邦法院审理的被告方律师纳入进来,从而可能看不到地方性偏见;将那些向联邦法院提起诉讼的原告方律师纳入进来,就可以观察到这种偏见。)确实,米勒也认识到了这个问题,声称“当然,这个样本是有偏差的,因为它排除了向州法院起诉并没有被移送到联邦法院审理那些案件的代理律师”。但是,这未能阻止他进行因果关系推论,并基于这些推论提出一系列政策建议。
是否会有法律或者政治组织采纳这些建议,我们不得而知。我们知道的是,单凭将某种随机性要素引入到研究当中,米勒并不足以防止最后得到的样本出现偏差。除非他纠正了这一点,或者其他研究者设计出了一份没有根据因变量选择样本的研究规划,否则我们应该认为任何推论都是可疑的。
(六)小样本的研究:避免非随机抽样下的选择偏见
正如我们在上文中指出的那样,我们建议的随机抽样策略只适用于大样本研究。大样本之所以是有用的,是因为它使偶然的关联性变得极为罕见,实际随着n的变大而变得越来越不可能。但是在n非常小时,随机选择并不能避免选择性偏差,因为此时抽样规则与因变量之间的关联性有可能存在,甚至其概率是相当高的。这一问题需要予以重视,因为除了随机抽样,研究者无法直接依凭其他任何办法来避免数据采集方面的自欺欺人。
那么问题来了:当研究人员从事小样本研究时,他们该怎么做?答案是:当他们用某种形式的意向性选择替代随机抽样时,应该尽力避免在不经意间将偏见带入研究之中。要做到这一点,他们必须设计出一种抽样方法,以使抽样规则与因变量没有关联性。
当然,要做到这一点往往很困难。因为进行抽样之前,因变量的值(或曰确切含义)一般是未知的。但幸运的是,存在克服问题的各种方法——选择某些观察结果并予以纳入小样本研究。假设一位学者想通过考察警察的行为,来了解目前任职于伊利诺伊州的警察遵守米兰达规则的程度。无疑,他可以从身份上确认该州的所有警察,并对需纳入研究的警察进行随机抽样。不过,让我们假设他和我们当中的许多人一样,时间和精力都很有限,没有办法到处奔走,因此他只能够考察离他家最近的警署的警察。换句话说,他对样本的选择是有意向性的而非随机的,因此就可能存在这一风险:他所选择的警署在执行米兰达规则的方式上,可能与其他所有警署都不一样。
他如何将这种风险降到最低呢?理想的情况是研究者采集更多的数据。但在条件受限的情况下,可取之策是确认一种使用简便或者成本低廉的、适用于更多观察结果的测量方法,这种办法能够补充对邻近警署的细致考察。就这个例子而言,研究者也许可以对伊利诺伊州的警署进行随机抽选,采集一份数量为100的样本;并且,从公共记录当中确认被告人律师提出的、与那些警署警员相关的、基于米兰达规则的动议数量。无疑,这些数据不同于研究者从细致的个案研究中采集到的数据,并且在效度上还要低于后者;但是同样确实的是,这些数据帮助研究者判断自己所考察的警署,是否能够代表其他警署(例如,对被提出的100个动议中的3个进行排序,较之对100个动议中的50个进行排序,能揭示出极为不同的东西)。另一条可取之策是:先根据公共记录进行分析,在此基础上,选择一家较有代表性的警署,然后对其进行细致的研究。采集到这些信息之后,研究人员就更为(或更不,就这个例子而言)确信自己从意向性地抽取的更小样本中所得出的推论。
九、总结建议:发展支持经验研究的基础架构
推论规则很重要。这是一个大多数学者,尤其是法学家无须争辩都会同意的主张。既然进行准确的经验研究,尤其是得出有效的推论,依赖于我们所描述的那些规则,学者们就应当有足够的积极性去了解和适用它们。
同时也要认识到,不管个别研究者多么想开展好的研究,不管他们多么希望为政策辩论作出切实的贡献,不管他们多么希望对同行作权威性发言,这些规则可能很难得到遵守。在缺少充分的研究基础的情形下,这些规则几乎不可能得到遵守。“充分”一词旨在描述一种基础架构,它能够支持、鼓励并且提高学者们从事经验研究的能力,同时提高律师、法官和学生们享用经验研究的能力。
出于这个目标,我们设计了一些建议,在此予以详加说明。这些建议的重点是:法学院和最大范围意义上的法律共同体,如何发展这一基础架构。我们必须指出,这些建议并非是在呼吁白手起家。恰恰相反。尽管在目前从事经验研究的法学教授中,很少有人熟悉推论规则、经验研究方法和规范、这些研究的评价标准,但法学教授已经提出了一些很高的标准来管理法学学术生态的许多其他方面。至少在我们看来,美国法学院似乎是高度组织化、有效率且资金充足的,并且其中大多数是性质相同的大学学院。法学院特别注重满足其多元化赞助者的需要,较之艺术类和科学类院系,法学院特别关注课程设置和教学方式这类内容。法学院和社会科学各院系也存在明显反差:政治学家、经济学家和社会学家们在自己的整个职业生涯期间,都不需要聚在一起讨论教学方法。即便是法学院的学生,也比其他传统文科院系的学生更富组织性。
在我们看来,这意味着快速、显著地改善法学院的基础研究架构的机会是切实存在的。这方面早已存在一些规范和制度,我们的建议也来自于它们。事实上,由于法学圈存在较强的组织规范性,假设法学院对我们的建议稍加关注,那么法学院不仅能够矫正目前经验法学研究自己也已认识到的尴尬状态,并且还能够走在其他人文学科的前面。因为,即便是那些一直在做先进的经验研究的学科,也未曾围绕一个明显可辨识的共同体进行协同研究,也缺少维系相关事业的规范。
下面是一些有事实依据的建议,这些建议能够令上述愿景成为现实,或者至少开启这一进程。我们将这些建议归为五个指标。第一组指标针对三种行动者:(1)法学院学生;(2)法学院教师;(3)法官和律师。第二组指标关注关系到整个法律共同体的两个事项:(4)法律评论;(5)数据归档与整理。
最后请注意,为了尽可能清晰地表达我们的观点,我们会以某种程度的具体性来提出这些建议。不过,我们当然不认为它们代表着唯一的进路。事实上,这些建议仅仅以我们的如下假设为依据,即实施这些建议能够改进法律领域的经验分析。我们显然不能肯定我们的任何一个观点,能够在某个特定法学院取得意向性结果,我们也没有进行任何分析来评估这些观点。这样的研究当然是需要去做的。但与此同时,基于数百家大学的数十门专业学科的数千名学者的数十年经验,让我们对这些建议的一般性指示拥有一定的自信。作为外部学科人士,我们当然不大确信为了适应法学圈和法学院的文化,我们对这些概括性原则所进行的调整是否恰当。无论如何,此类建议应该依据每一个法学院独具的区域性状况进行进一步调整。不管这些观点的最终结局如何,我们都希望它们能够促成一场热烈的讨论——如何改进法学共同体中的经验研究。
(一)为法学院的学生开设经验研究课程
较之大学中的其他大多数院系,法学院在回应学生利益和需要方面或许更为著称。例如,对比一下学术性博士培养项目就能发现,后者很少训练学生去做未来要花掉他们大半生涯去做的事情——教书,而法学院则将资源和教师专门投在法律诊所教育、模拟法庭辩论以及其他能够帮助学生发展法律职业技能的项目上。还有,其他专业学科一般只允许教师来编辑学术期刊,与此相反,法学院却更放手交与学生去管理最具声望的学科出版物,而学生能够以各种方式从担任期刊编辑的经历中获益。最后,其他许多专业的研究生培养机构只花费很有限的时间和金钱去指导学生就业,而法学院往往会建立复杂的机制为学生找工作提供全方位的帮助,包括从准备简历到面试策略。
为什么会出现这种行规并不重要。重要的是,通过将至少一门经验研究课程——该课程包括研究设计和评估所需的各种定性及定量的方法——纳入课程设置之中,法学院还能够百尺竿头更进一步。服务于法学院法律评论的学生当然需要修这门课(我们将在第九部分第四小节展开这一论题),也许对其他学生来说也是如此。
我们之所以提出这一建议,并不是因为所有的学生将来都会从事经验研究。法学院的主要目的不是培养未来的法学教授,因此大多数学生从来都不用准备在法律评论上发文章。开设经验研究课程,是因为当学生们日后面对客户、律师事务所的前辈和法官时,他们需要具备评价这类研究的技能,不管是在刑事诉讼还是民事诉讼当中。在今天,情形确实如此,并且随着法官逐渐提高对律师达到某种法律标准、质疑专家或以可靠的经验证据证明某种主张的要求,情形也许会更加如此。
除满足学生和法律共同体的需求外,训练学生掌握经验研究的标准和规范还会带来至少两种受欢迎的次级效应。首先,同样是因为对数据越来越多的需求,拥有相关技能的学生将会比那些没有这些技能的学生更有市场(我们下面在第九部分第三节当中鼓励这一趋势)。对那些上过经验课程的学生,以及设置了这种课程的法学院来说,这都是一个好消息。毕竟,好的就业率才能吸引到更好的申请者,二者都能够提升法学院的地位。其次,教师也能获益良多。开设经验课程要求法学院雇用受过经验方法论训练的学者,而这些学者反过来又成为法学院教师的来源——除了课程设置所需之外可能没有办法获得的来源。
对法学院教师的基础设施需求,我们随后可以详加探讨。这里先让我们探讨一下两个显而易见的关注点:这些方法论专家是谁?他或她应该来自什么样的专业领域?首先是第一点,她或他当然应该是一个全心全意的学者/教师,精通推论规则和从事经验研究的规范和标准。但这样是不够的。被选中的方法论专家还应该能教学生和教师如何分析自己的数据,因此专家还应该拥有一套专门技能。
一方面,这位方法论专家可以来自任何一个专业学科。因为法学中的经验研究会遇到一些方法论问题,这些问题和生物学、化学、经济学、医药和公共卫生、政治科学、心理学与社会学领域的一些问题存在交集,因此可以借鉴其他学科的方法来研究法律。在另一方面,在几乎每一个已经开展严肃的经验研究的学科中,学者们都发现了对该领域的关注点来说是独一无二的方法论问题。事实证明,每一种新的数据来源通常至少要求对现有方法进行某些调整,有时候还要求发展出一些全新的方法。事实上,生物学学科中有生物信息学,医药和公共卫生中有传染病学,经济学中有计量经济学,化学中有计量化学,政治科学中有政治方法论,心理学中有心理测验学,社会学中有社会学方法论,等等。
因此,为了鼓励严肃、持久且能持续地得以完善的经验研究,法律共同体应该促进法律内部的一门方法论二级学科的发展。为了实现这一点,法学院应该聘用那些深度受过经验研究方法之训练的学者,而不管这些学者是在哪一门学科中获得其学位的。但是,法学院还应该选择这样的方法论专家,他们理解(或有兴趣去理解)法律学者所关注的问题类型和可利用的数据类型。一些专业学科(例如,经济学和政治科学)定期产出符合这一描述的博士。通过向这些方法论专家一再表示对其关注对象的大加赞赏,法学教授也可以帮助自己摆脱困境。这可以通过合作授课来实现,合作授课对学生和教师都有助益。也可以通过合作研究来实现,这一论题我们将在下一节详加探讨。不管哪一种方式,都能创造出新的学术纽带。之后,鉴于法律的跨学科属性越来越明显,例如政治科学家或经济学家,就可以发展出一些新的经验法学研究方法。但是,法学教授也将发展出其他一些新方法。最重要的是,法学院没有必要相互约定无视方法论问题。这个领域——法学研究的经验方法论——自己会发展壮大。
(二)增加教师进行高质量经验研究的机会,然后及时传播研究内容
就自己从事的研究而言,法学教授似乎已形成了一种及时性的标准。法学教授的兴趣或许是:影响当前的政策辩论,看到自己的主张在法律摘要中起作用,确保自己的观点不会因为法院的判决或者国会的法案而失去实际意义,获得终身职位,或者实现其他目标。但是不管怎么解说,他们都关心——也许比大多数别的学科更关心——尽快地发表自己的观点和结论。
我们并不质疑这一标准。实际上,对当前关于公共政策的辩论产生科学有效的影响,当然是十分重要和极其有影响力的贡献。法学家们一次又一次地证明,至少在速度方面,自己非常适合承担这一任务;当任务有很高的质量要求时,他们就一次又一次地失败了。失败很可惜,因为他们其实可以实现兼顾。也就是说,他们既可以创造并展开一流的研究,也可以快速地传播一流的研究。即便时间、信息和资源是有限的,总是有办法得出可靠的结论。
为了帮助教师实现这一点,我们提供了法学院应该遵循的两组建议。第一组旨在促进相关技能的发展,如果法学院教授要展开高质量的研究,他们就需要这些技能,这样他们才能在允许的时间内对问题作出正确的回应;第二组旨在建立基础设置,从而允许法学教授尽快地产出可靠的研究结论。这些建议将促进学者们在有限的时间和资源下,产出有效的、科学的推论(换句话说,正确地判断推论的不确定性)。但是,我们不应该就此止步。虽然时间经常是有限的,我们还是建议了一些重新定位和整理资源的方法,这样一来就可以大大减少学术结论中的不确定性程度。即便对那些需要或者应当予以尽快传播开的研究来说,也是如此。
1.帮助培养方法论的技能
我们相信,法学教授有必要学习并且理解我们在本文中讨论的那些规则。但同时我们也承认,仅仅做到这一点还是不够的,法律学者需要更多的训练,才能实施我们所提供的那些规则并掌握与数据分析相关的技能——不管是定性的还是定量的数据。他们如何才能发展出这些技能呢?
每一位教师都可以采取多种方法,其中有三种特别显眼。首先,他们可以听一门经验研究课程。我们之所以这样说,是因为充分意识到法学教授一般不会去旁听同事的课。但法学教授应当知道,在许多同根同源学科中,学者们经常会去听技能性课程。无论这些学者是否有终身职位,是初学者还是资深学者,是复习自己的技能还是学习全新的技能。他们这样做并不觉得羞愧。其实,在许多学科院系当中,参与一节方法论课程讲授使人拥有了炫耀的资本,因为这向同事和研究生表明了他与时俱进的愿望。
第二,教师可以在一些研究机构中获得训练,其中最著名的莫过于“政治与社会研究校际联合会”(ICPSR)。ICPSR设在密歇根大学,为有兴趣从事经验研究的教师和学生提供暑期培训项目。其课程涵盖从导论性的(“统计学和数据分析导论”)到专门性的(“最大可能性估计高级课程”),从一般性的(“计量学导论”)到非常具体的(“老龄化与退休研究中的随机选择”),从高度理论化的(“数学模型”、“博弈论”)到纯粹经验主义的(“定量方法与非裔美国人研究”)。不过,由于和法律紧密相关的课程(例如“刑事审判数据:整合定性与定量的研究”)很少,使得法律学者很可能会转移他们的注意力,从而无视在发展理论、定性或定量数据分析工具方面的渊博经验。
第三,法学教授可以通过与法学院中的方法论专家(例如对法律感兴趣并在法学院工作的社会科学家)进行合作的方式,来学习如何进行经验研究。换言之,对法律学者来说,最简单、最有效的方法——也是其他学科经常使用的方法——就是提高对经验研究方法的重视,学习自行进行经验研究时所需的技能。
法学家可以并且应该促进上述活动。对那些想听经验研究课程,并最终证明(例如,通过向全院教师作报告或者发表论文的形式)自己掌握了相关技能的教师,所在学院应该对他们减免教学工作量以提供自由时间。对那些想要参加ICPSR的教师,法学院应该替他们支付费用,其他学科的许多研究项目目前就是这么做的。对那些想和具有经验研究技能的同事展开合作的法律学者,所在法学院应该提供激励措施,以将兴趣转变为行动。措施可以是为研究计划提供项目启动基金,或者是其他形式的支持。不管他们怎么做,法学院都应该承认,学术研究生涯的重点是对学术著述事业作出尽可能的贡献。那份贡献的作者人数是一人还是几人应该是不重要的,只要有贡献就够了。更重要的是,假设将合著纳入研究者的作品清单将有助于他们作出更大的总体性贡献——其他许多学科就是这样做的,那就应该大力提倡合作。
最起码,法学院不应当让合写论文的教师遭受不利(例如,拒绝授予终身教职)。让人担忧的是,合作论文在法律期刊上很罕见,在其他学科期刊上却很常见,不过这种担忧很容易消除。正如Schuck建议的那样,法学院应“设计出一套方法,以恰当地评价每个个体对合作开展的研究项目的贡献度”。在其他学科,最常见的方法无非就是建议年轻教师:“和一名以上的学者合作;不要只和资深学者合作。”遵循这一建议,就能更方便地评估单个个人对不同研究项目的贡献。但还存在其他的相关信息来源,例如法学院在教师申请职称晋升的时候,给一些学者发函征求意见。也就是说,由这些熟悉申请人、熟悉申请人的研究项目及其对合作研究之贡献的学者们,来出具评估意见。
但法学院还可以走得更远,尤其是对有很多教师有志于开展高质量经验研究的法学院来说。也许,法学院教师可以每月举办一次有关经验方法论之运用和革新的研讨会,邀请杰出学者(就目前而言,这些学者来自于外部学科)担任领路人。教师们还可以考虑就地成立自己的暑期研究机构,考虑聘用一些与法律相关的经验研究领域的专家。这些专家可以担任授课者和讨论引领人,并且如果幸运的话,可以为更多的长期合作创造机会。最后,法学院应尽可能提供资金,来支持发展为期3—4天的系列经验研究工作坊,这样能够使20或30名教师快速进入状态。短期研讨会显然是不够的,但它们很有帮助。结合创新性的网络远程学习材料开展工作坊,并分派工作坊的前期阅读材料(当然还有参加几个工作坊),在这方面还有很长的路要走。最后,假设经验研究课程列入了法学院的课程表,那么学生(换句话说,未来的法学教授)就可以获得充分的训练,因此就不再需要工作坊。
2.通过改善资源来节约时间
不管时间和资源多么有限,学者们都可以进行严肃的经验研究。但是,如果时间和资源都受到高度限制,那么他们就要付出某种形式的代价——研究结果的确定性下降(换句话说,时间和资源越少,能够收集到的观察结果的数量就越少,或者能够使用的测量程序就越不可靠,因此由此产生的推论就越是缺乏实效)。鉴于有些法学教授想要产出能尽快传播开来、尽可能富有知识性的研究结果,因此花费更多的时间并不是一个好办法。不过,增加资源或许能带来显著的改变。让我们来看一看法学院可以提供的至少四种帮助方式。
首先,法学院可以保证进行经验研究的教师拥有相应的计算机和软件,还有他们使用这些资源所需要的技术支持。粗略估计,计算机应该三年一换,软件大约一年升级一次。人员配备可以采取许多不同的形式,但是一般情况下应该包括网络管理员、系统操作员、用户支持人员以及文书助理。当然,许多法学院已经配备了若干这些人等(除了网站设计者和管理者之外),随着教师越来越倚重沟通和写作方面的技巧,可能还需追加更多人员。除了维持这一领域已经取得的进展之外,我们建议在现有的信息技术队伍内,补充能够开展特定研究的专家。在这里我们只提两个例子,尽管有些人可能对下面提到的两类工作都擅长。
一是统计学软件程序方面的专家。目前,许多法学教授都依赖简单的数据库或者Microsoft Excel这样的电子表格程序。就概略式数据处理而言,这些东西也够了。不过,对严格的统计分析和图表制作来说,它们是没有帮助的;并且,对许多统计研究的目标而言,它们提供的数据甚至都不够可靠。研究者应当有可资利用的基础设施,从而不会受制于运用自己有缺陷的软件所得到的数据分析。幸运的是,存在许多替代性软件(包括社会科学统计软件、统计分析系统、数据分析与统计软件)。这些软件肯定更加强大,但是它们学起来和用起来也更困难。因此,就需要专业知识。引进方式包括,为那些自己动手编程的法学院教师配备顾问,或者直接让助手代劳。另一个是图表设计方面的专家。展示数据——不管是定性的还是定量的,是一项重要的技能,也是许多经验研究者经常要用到,却没有时间或者兴趣去学习的一项技能。较之其他专业人士而言,法学教授或许更需要向业余人士解说自己的研究结论。因此在研究团队中增加一位必不可少的图表制作专家,会让法学教授们受益匪浅。
我们没有将精于数据分析技术的人纳入进来。尽管我们解释过配备这样一个人很重要,但是他或她不应被视为是信息技术队伍的组成人员。方法论专家同时是一位学者,在法学领域内,方法论专家就是法学教授。定量和定性的法律方法论,既是法学教授关注和耕耘的领域,也是他们的研究工具。鉴于统计学和研究设计并不像铅锤测量那样是“单纯技术性的”,在这种情况下,“统计人员”这一职位描述往往是不适用的。法学院需要方法领域的创新,而不是只会机械地将现有技术适用到法学之中的技术员。机械适用往往会导致所选用的方法实际并不符合研究者的需要。正如在别的学科领域中那样,方法论是一种创新性努力,这一任务只能托付给另一位学者(而不是纯技术人员)。
法学院帮助他们的教师充分利用其时间的第二个办法,是以研究助理的形式,为他们配备额外的人手。研究助理能够帮助学者尽快并卓有成效地收集数据。各个院系可以通过多种方式实现这一点,包括为帮助研究的学生提供奖学金、津贴和学分等等。所有这些方法都是可行的,并且在某种程度上,它们已经出现在许多法学院中了。但是,仅仅借鉴或者扩展专业院系所使用的模式是行不通的。其他学科领域的研究者往往在学期或者学年开始之际,就必须向研究助手发出要约,这样问题就来了:在最后时刻找到帮手是非常艰难的,即便不是不可能的。显然,即便这种形式的研究助手也是能带来改善的,但是他们没有办法解决这个问题:如何尽快地得出最好的研究结论,以回答出现在公共论辩中的那些问题。
因此,除了法学教授自己聘用研究助手外(许多人已经这么做了),我们觉得一个可行方案是由法学院出面聘用一定数目的研究助手(连同我们前面提到的那些辅助人员),并且在学期开始之际先不要给这些助手指派任务。这样一来,当出现需要立即关注的特定政策论辩或者其他问题时,就可以根据需要随时分配助手。无疑,这样的人力资源储备能够帮助法学教授提高业已存在的及时性标准。
第三,就像我们早已提到的那样,法学院应当鼓励自己的教师与那些知道如何进行严肃的经验研究的学者进行合作。合作的理由除了我们之前给出的那些外,还包括合作式经验研究开展起来更快。法律学者无须浪费宝贵的时间去学习各种新技术的方方面面,他们可以依靠合作者,而后者也能从法学教授提供的大量专业知识中获益。
最后,为了开展经验研究,学者们经常需要资助。他们可能需要采集一份特定的数据集,实地调研,聘用访谈人员,等等。为了让法学院的教师可以充分利用自己的时间,我们建议法学院及其合作机构追赶走在前列的其他院系,对可行的研究项目提供启动资金。这种资助或许能帮助学者们进行试点研究,学者们反过来也可以运用研究成果来影响公共政策论辩,或者向许多外部资助机构、基金会和捐款人证明他们的研究是有价值的。外部资助当然能给具体的研究计划带来好处,但对于法学院来说,它还会带来其他积极效应。申请资助并将相关经费转入法学院是有间接成本的,如果更多的法学院教师从“国家科学基金会法律与社会科学项目”获得资助,院长们当然不会拒绝对教师们进行补偿。作为进一步的激励,法学院也可以像其他研究机构那样,一开始就将部分间接成本补偿款项拨给申请到项目资金的教师。
(三)鼓励聘用受过经验研究训练的学生
在本文的开篇处,我们就强调了法律共同体成员——尤其是法官和律师们——对内容宽广的、可靠的经验研究的呼吁。为了回应这类请求,我们提出了一些规则。学者们可以使用这些规则改进自己的研究,研究成果的“消费者”也可以使用这些规则来评价各种研究。
不过,那些消费者——其主体仍然是法官和律师们——也可以依据自身情况,尽可能地聘用一些受过经验研究训练的法学院学生。理由至少有两个。首先,这可以鼓励法学院去发展必要的基础架构,也就是说,遵循我们所提的其他建议。例如,如果法官们开始关注那些申请做助理的法学院学生是否受过经验研究训练,就会促使法学院在课程设置当中加入必要的课程。这反过来会促使法学院聘用一位方法论专家,提升法学院教师正确地开展目前法官们想要的那些研究的能力。
第二个理由类似于我们之前的一个建议,即有助于法学研究者找到拥有经验研究技能的合作者。就像同方法论专家展开合作有助于教师们充分利用自己的时间一样,聘用一位拥有经验研究技能的助理或合作者,对法官和律师而言也是一种有效率的做法。这样,他们只需投入最低限度的资源(例如薪水),就可以让这些受聘者代为评估研究成果的好坏。重新划分选区、劳动雇佣和其他许多法律领域的各种经验研究提出了相互矛盾的研究结论,当法官们面对这些结论时,必须有人帮助他们进行鉴别。当律师不得不质疑那些不符合他们自己的研究发现的结论时,情况也是如此。至于专门的统计工作人员,尽管还不能完全予以舍弃,但聘用他们的必要性正在逐步降低。
通过提出这一建议,我们并非是想暗示经验研究方面的训练应当是律师和法官作出聘用决定时的唯一或最为重要的标准。我们想说的其实是,如果经验研究的训练成为其中一个标准,那么由此产生的连锁效应将会极其有益于法律共同体的所有成员,即经验研究的生产者和消费者。
(四)调整学术期刊的管理模式
在法学界,由学生们负责并且编辑所在法学院的标志性期刊(例如,《芝加哥大学法律评论》、《耶鲁法律期刊》),虽然他们在决定某一篇论文是否录用之前,也经常会以非正式的方式咨询法学院教师。我们阅读了关于这一成规是如何产生的各种解释,我们也很赞赏这一传统。不过,它也有不如人意之处。例如,未能遵循经验研究的一项重要内容:排除个人偏好,将注意力放在作品而不是作者身上。如果没有某种形式的盲审,就很难将作品与作者分隔开来。同样成问题的是,这些期刊的稿件涉及复杂的、专门性法律领域,或者运用了复杂的统计学方法或定性分析方法,而学生们(事实上是任何人)可能缺乏评估稿件所需的专业知识。最后,大多数法律期刊缺少同行盲审机制,这导致法学研究者(较之其他大学教师而言)处在一个特别不利的位置。盖瑞·威尔斯(Garry Wills),一位杰出的学者,在了解顶尖法律评论的运作方式后表示震惊,但感到震惊的人不止他一个。一如劳伦斯·弗雷德曼(Lawrence Friedman)所言:
法律评论是法学研究者的首要出口,法律评论制度对法律教育来说有着独特的意义。其他领域的人了解这一点后都会感到吃惊;他们很难相信他们所听到的。什么,由学生决定哪篇论文值得发表?没有同行评审?……私下里,我也和他们一样感到吃惊;而且我认为该制度在某种程度上是完全疯狂的,这和他们所认为的一样。事实上,存在不少谩骂之词——教授和其他人都在对法律评论发牢骚。
这段引证以及我们可以提供的其他引证都表明,(除了该“独特”制度的其他特征之外)缺少同行评审,让其他学科领域的学者很难严肃地对待法学作品,特别是因为其他学科在决定终身职位、晋升、加薪以及其他待遇方面,非同行评审的文章并不“算数”。当然,其他人没有严肃对待法学研究并不是我们的关注点;我们关注的是,同行评审有时会产生重要的好处。
不过,据我们所知,全面转向通行于自然科学和社会科学学术期刊的彻底的同行盲审机制,在策略上不可行。为数众多的法学期刊,可能会给担任匿名评审专家的法学教授带来巨幅增长的工作负担。而且,进入到评审阶段的论文一般是禁止再投给其他刊物的(这样一来编辑和评审专家的付出才不会被浪费);因此,换成同行评审也可能会减缓论文发表的速度。考虑到及时性标准,要特别注意避免产生这一结果。还可以确认存在其他一些问题,但在这里指出这一点就够了,即传统的同行盲审模式的成熟版本,似乎并不符合法律共同体的成规、需要和目标。
正是出于这些理由,法学教授才保留了他们的“独特”模式,同时又发展出各种机制来弥补该模式的显性缺陷。大量的脚注是其中一个。另一个是论文开篇处始终存在的、冗长的致谢名单。列出被致谢的学者名单,已经成为检测研究之可靠性的一个手段。当然,列名单并不意味着被提到的那个人是一位非匿名同行评审专家,或者以某种方式对论文表示了赞赏;详尽的脚注,也无法保证研究的价值。但显而易见的是,法学院教师们将这些做法视为对大学其他教师的回应,因为后者震惊于“法学院曝出来的家丑——法学教授的学术前途居然受制于法学院学生”。
不管法学教授们所增加的这些论文体裁多么有帮助,它们都没有办法弥补其他人和我们指出的缺少同行盲审带来的缺憾。因此,我们推荐一种替代性的模式:一种既能让法学院保留现有成规,又能利用同行评审制度的某些特点来改善这一成规的模式。当然,可能还存在别的可行性模式。但是我们提出的这个模式,与许多大学(图书)出版社采用的审稿模式相似,也许最符合法律领域的传统。这个模式是这样运作的:
● 学生可以继续担任法律评论的编辑和成员,这一点和现在一样。但是法学院应该将编委会的成员范围扩大到教师。
● 当他们收到稿件后,学生——和大学出版社编辑一样——可以退稿,不管是出于什么样的理由,只要他们认为这个理由是有效的,这一点也和现在一样。但是,如果他们认为这个稿子或许可以发表,那么他们必须获得至少一份同行盲审意见(也就是说,评审人不知道作者是谁,作者也不知道评审人是谁)。评审人应至少专长于相关主题或方法论领域的某些方面。在大多数情况下,评审人就是法学教授(理想情况是来自于另一个法学院的法学教授,但并不总是这样),尽管有时候评审人也可以是写过相关主题论文的学生,或者是来自其他学科领域的博士。重要的是,编辑必须基于专业知识而不是地位去约请审稿人。
● 在收到外部评审意见后,学生编辑有权自主退稿。但是,如果他们想要发表经过外部评审的论文,那么他们必须将匿名同行评审意见和内部学生编辑的评价一起送交编委会,由编委会最终决定录用与否。若有需要,法律评论的学生编辑可以指派某个人对匿名评审意见写一份回应,征求作者对评审意见的答复,甚至要求作者提供修改后的论文,并汇总相关信息以供编委会评审。
不管审稿程序具体是如何设置的,最重要的是法律评论应该只发表这样的论文:(1)按照双向同行盲审(或者至少单向盲审)的流程设置,已经过至少一名外部专家的评审;(2)获得了编委员的通过。编委会应当对法律评论的学生编辑发挥监督作用,但是在大多数情况下,编委会显然应当支持法律评论编辑们的决定。事实上,大多数大学出版社的编委会正在将权力交给编辑,编辑目前享有很大的自主权。如果这一模式适合法学期刊的话,那么这种现象也很有可能会发生。这样一个新制度,可以让编辑能更轻松地对一些会影响自己未来职业生涯的资深教师说“不”(“很抱歉,编委会没有通过您的文章……”),并且会实质性地提高决策过程的公信力、法律评论的声望以及所发论文的学术价值。学生编辑非正式地咨询教师意见这一做法表明,他们早已认识到了其中的一些好处。
在提出这一模式之时,我们承认采用它——或者各个法学院依据自身情况稍加调整后的模式——可能会增加学生和教师的负担。在教师的引导下,学生必须着手寻找大量的外部指导。院长必须要说服教师担任编委会成员;教师有时候会被要求评审某些稿子。而且,在时间上习惯了相对快速运转的法学教授,(也许)就不得不多花一些时间去等待稿子的外审结果。
对我们来说,这些成本都不是特别繁重或者成问题的。就像其他学科的教师编辑提示的那样,评审人名册很容易造出来。在法律领域可能尤其如此,因为存在年度《美国法学院联合会法学教师名册》,这是其他许多学科所没有的一种资源。此外,一旦法律评论建立了自己的首份名册,那么下一届编辑就只需在此基础上予以完善。(顺便说一句,这种信息的编制过程能让人极大地增长见识,能够帮助学生和教师了解整个研究领域。)担任编委会成员的教师可以轮流换届,从而保证没有一位教授长期负荷这个任务。若有必要,法学院还可以用奖励——包括自由时间和项目启动资金——来补偿编委会的教师成员。最后,政治科学(和大多数学科一样,该学科的期刊都采取同行评审)领域的经验告诉我们,称职的编辑可以在2到3个月内处理完一批稿子。在审稿环节,所有的投稿论文——而不局限于编辑觉得值得发表的那些论文——都要获得至少三份外审意见。为了实现这一点,编辑们除了使用其他办法外,还利用电子邮件快速联系潜在的评审专家,发送稿件的电子文档,并严格执行评审人递交审阅意见的截止日期。这些以及其他的办法,对法律评论来说都是完全适用的。
更重要的是,这一替代模式所带来的好处超过了其带来的所有不便。法学院的学生和教师都能从中获得好处,一种其他学科学者都熟悉的好处:阅读稿件并作出评价,尽管琐碎,却是了解某一领域研究现状的重要途径(而且还是在论文发表之前就了解到了)。这就是为什么其他学科的学者愿意承担评审任务、担任编委会成员的原因之一。此外,我们的替代模式还提供了一个机制,即编辑委员会。较之其他学科院系,法学院存在更严重、更根深蒂固的等级划分,而编委会能促进教师与学生的互动,打破这种等级划分。在我们看来,专业学科内有意义的等级划分,只能是以知识为依据的;有时候学生拥有这种知识,教师却没有。确实,尽管外部专家的意见有助于辨别相关论文是否“正确”,但那个最熟悉论文主题的人,有时候却是一个研究过该主题的学生;对某一个研究主题持有最好想法的人,是一位经年累月按照标准范式操作从而能免于“偏见”的人,有的时候这种人也是学生。因此,让教师和学生一起作出决定,能让所有相关者受益匪浅。这种做法让学生成为学术共同体的成员,让他们步入了这样一个世界:在那里,大家不停地学习,共享专业知识,培育自由交流学术信息的规范,并提出新的观念。
这一模式给法学院带来的好处(包括法学院在大学和法律共同体中的地位),是显而易见的。院长们和法学院教师不会再因为“难以启齿的家丑”而感到尴尬,他们可以自信地说,所有出版的法律评论都遵循至少一种同行评审模式。这将会改善他们在其他大学同事心目中的形象,因为后者不管本校法学院的排名如何,总是觉得他们智力贫乏。从外部来看,这一模式同样有帮助。这一评审过程至少会过滤掉一些“垃圾”——法学教授们指责自己的期刊时用的措辞,从而提高出版物的质量。我们还可以设想,法学院如何运用这个模式来提高自己的声望。假设,在排名前20的法学院当中,有10家采用了这个模式,10家则没有。这为10家采用这个模式的法学院提高自己排位,提供了一个起点。因为一旦法学界都知晓圈内的顶尖期刊采取了同行评审,排名20之外的法学院的院长们,就有积极性去推动自己的教师在这些期刊上发表文章。随着时间的流逝,采取同行评审的10份期刊将会变得越来越好,而其他10份期刊的风评则会下降,其他专业学科的情况就是这样的。当然,这个逻辑对所其他有法学院来说也是成立的,不管这些法学院目前在排名榜上处于什么样的位置。
无疑,在推荐这一模式之际,我们也认识到它未能克服目前法律评论稿件遴选过程中的许多倾向,这些倾向受到了学者们的批评。但是相比现在采用的模式,它确实拥有一些实质性的优势,同时还保留了一些对学者们有吸引力的因素。
(五)设立数据归档的标准
法律出版物当中最重要的成规之一,是编制参考文献:法律评论编辑和作者比学术界的其他人更沉迷于脚注。我们注意到,这一成规逐渐受到了各方面的批评。从某种角度来看,这样做是浪费精力。但从经验研究的角度来看,它有两个重要的好处。首先,它将当下的学术状况与已有的文献联系在一起。我们就培育学术共同体的重要性提出了一些批评性建议,而这一做法是法律学者们实施上述建议的仅有几种方式之一。其次,详尽的脚注能有助于读者查找论文所引用的任何一篇文献,并了解该文献的内容。假设该文献尚未出版,学者们从作者或法律评论编辑部那里获取。法律评论应当要求作者提供未出版的参考文献,并将这些材料归档保存。当然,我们不能说其他所有学科都存在同样的成规。
既然编制参考文献的这一成规对法律共同体很重要(且有价值),那么他们在处理非文本形式的信息来源——尤其是经验研究所分析的定量或定性数据时对成规的随意践踏,难免让人感到吃惊。例如,尽管法律评论通常会从作者那里获得未出版的相关资料,但一般来说他们并不会保存与已发表论文相关的,并且对进行重复研究来说必不可少的定性/定量数据或者记录。同样(除去一些明显的例外情况),我们发现要从公开渠道、法律评论或者直接从论文作者那里获得已发表论文所使用的数据,可能性是微乎其微的。即便是那些“明显的例外情况”,也存在许多限制条件或者问题。在前一种情形中,作者愿意提供他的数据,但前提是我们愿意签署一份对我们的用途施加了苛刻限制的法律文件;在另一种情形中,只给一份数据表,从而无法展开相关分析。
这些做法导致的结果是,经验法律研究论文中最重要的资料性证据的来源,就永远地泯灭了。这一巨大的资源浪费,不应该继续下去。证据资料一旦泯灭,学术共同体该如何评价这些研究?未来的学者如何以它们为基础继续研究?同样,原始作者如何进行后续的研究?学术共同体如何纠正已有研究中的错误、如何改进研究方法,或者如何从这一最重要的优势——拥有一个与生俱来的学术共同体——中获益?
我们建议,法律评论最起码应当像对待文本类资料那样,对经验数据进行分门别类地归档。并且,就像对待文本类资料那样,这应该是论文发表的前提条件。这就是说,任何读者都可以自行梳理支持已发表结论的证据链。遵从这一规范的方式之一,是使用公共数据库资料。不过,几乎在所有情况下,保证充分遵从这一规范的唯一方式,是要求研究者将他们的原始数据和重复他们的结果所必需的全部信息,保存至某些公共档案馆。这听起来像是一个非比寻常的主意。但是,试图重复其他人经验研究的各个学科的学者都知道,在缺少原始数据的情况下进行重复研究是非常困难的。即便是那些使用公共数据库资料的研究者,通常也至少要保存完整的估算过程(即他们怎么从公开的数据推导出量化结论的),以及所分析数据资料之版本的准确信息。出于同样的原因,进行问卷调查的研究者,也应当保存每个受访者的答卷(只能因为保护受访者身份才可以删除一些信息)以及所有的计算过程(例如,处理了多少缺省信息)。对案例进行编码的研究者应该保存自己的数据集、完整的编码规则,并保存数值型数据与产出这些数据的、被编码的原始案例之间的精确关系。研究国会议员之言论的学者,应该保存相关发言的文本(假设这些文本不容易从别的渠道获得),或者对所有咨询性言论的具体引证。
许多档案馆是向公众开放的,包括“ICPSR(政治和社会研究校际联合会)出版物档案馆”、“国际研究联合会”的数据档案馆、“定性数据:英国国家经济和社会研究委员会定性数据档案资料中心”、“经济史协会数据库登记处”以及统计学共同体的资料馆Stablib。对法律评论而言,一个改进性步骤——无论是个别的还是集体的——是建立它们自己的数据档案,这样一来它们就可以保存经验证据,并符合法律职业圈的成规。一些档案馆的设立还与具体期刊有关,例如《应用经济学期刊》和《政治分析》建立的档案馆。“虚拟数据中心”项目提供了便利的共享工具和引用经验数据的确切标准,期刊和其他人都可以使用这些工具建立自己的档案馆。
前述建议关注的是法律评论。下一建议是关于法律学者们的,即那些遵守数据归档要求的人应当受到赞扬。法学研究者应当像列举自己已发表的论文目录那样,在个人履历中列出自己制作的、可以公开获取的数据集。决定聘用、终身职位和晋升的各种委员会以及其他评审机构,应当承认公开可获取的数据对学术共同体的贡献。
我们认识到,遵从这一建议以及我们提出的其他建议(当然包括这篇文章重点讨论的推论规则),会让法学院及其教师面临许多挑战。但我们觉得,满足这些建议的要求并没那么难。毕竟,对经验研究的兴趣以及支持存档的成规是现实存在的。当下的任务是,如何按照我们建议的方向去富有成效地运用它们。我们必须相信,这个方向将给法学研究以及公共政策带来实质性改进。