第1章
犯罪和充满噪声的判罚

假设某人被指控犯了罪,例如到商店行窃、私藏海洛因、袭击他人或持枪抢劫,该案件可能的判决结果是什么?

答案不应取决于该案件恰巧被指派给哪位法官、天气是冷是热,以及当地球队在前一天是输是赢。如果3个背景类似的人被指控犯有同一罪行,最后却得到截然不同的处罚,例如第一个人被判缓刑,第二个人被判2年有期徒刑,最后一个人被判10年有期徒刑,这样的结果显然会引起公愤。然而,在很多国家,这种不合理的情况时有发生——不仅在过去发生过,现在也依然可见。

长久以来,世界各地的法官对于案件的判决大都拥有自由裁量权。在许多国家,专家们对这种自由裁量权表示赞赏,认为它既公正又人道。他们坚持认为:刑事判决应基于多种因素,不仅要考虑罪行本身,还要考虑被告的性格及其所处的环境,“刑罚个别化”已成为当下主流;如果法官受到规章制度的约束,罪犯就可能受到不人道的对待,就不会被视为一个独特的个体,特殊情况也就无法被充分考量。在许多人看来,正当法律程序的理念似乎要求开放的司法自由裁量权。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

20世纪70年代,大众对司法自由裁量权的热情开始瓦解,原因很简单:大量的证据表明,噪声无处不在。1973年,著名法官马文·弗兰克尔(Marvin Frankel)引发了公众对这一问题的关注。在成为法官之前,弗兰克尔不仅是言论自由的捍卫者,还是热情的人权倡导者,他帮助创立了人权律师委员会——一个号称“人权至上”(Human Rights First)的组织。

在人权捍卫方面,弗兰克尔有些激进,也因此他对刑事司法制度中的噪声深感愤怒。以下是他对自己帮助创立该组织的初衷的描述:

如果美国联邦银行抢劫案的一个被告被定罪,最高会被判处25年有期徒刑,这意味着刑期是0至25年不等。我很快意识到,这个数字与其说取决于案件或被告本人,不如说取决于法官,即受到不同法官的观点、偏好和偏差的影响。因此,同一起案件、同一个被告,可能会因为审理法官的不同而导致判决结果截然不同。

弗兰克尔没有提供任何统计分析来支持他的论点,但他提供了一系列强有力的事例,来证明处境相似的人受到的对待存在严重不合理的差异。比如,两名男子均无犯罪记录,都因兑现假支票触犯法律,他们兑现的金额分别为58.4美元和35.2美元,第一个人被判处15年有期徒刑,而第二个人仅被判处30天监禁。对于两起类似的挪用公款案件,一名被告被判处117天监禁,而另一名被告被判处20年有期徒刑。因此,弗兰克尔对美国联邦法官“几乎完全不受制衡的权力”表示谴责,并认为这导致美国每天都在发生着残酷专断的行为。他认为,在法治而非人治的社会存在这种现象是令人难以接受的。

弗兰克尔呼吁美国国会结束这种残酷专断的“歧视”。他所说的歧视主要所指就是噪声,即量刑中存在的难以解释的差异性;同时,他也关注由种族和社会经济地位的差异所导致的偏差。为了消除噪声和偏差,弗兰克尔敦促改革,主张不应允许存在对刑事被告人量刑上的差异,除非这种差异可以“通过足够客观的测试来说明其合理性,以确保该结果不是特定官员、法官或其他人独断专行的产物”。不仅如此,弗兰克尔还主张通过制定“详细的影响因素清单”来减少噪声,这些清单“应尽可能包括某种形式的数字,或其他客观的评分”。

弗兰克尔在20世纪70年代初就写下了这样的话,因此不是在提倡“用机器取代人”这个主张。但当时他已经很接近这一目标了,这真令人难以置信。他认为“法治需要一套在多种情况下都适用的客观的规则,从而可以对法官和其他人进行约束”。他明确主张使用计算机作为量刑时有序思考的辅助工具,此外,他还主张成立一个量刑委员会

弗兰克尔的著作成为刑事司法史上颇具影响力的著作之一——不仅在美国,在全世界范围内皆是如此。他的著作有一个缺点:存在一定程度的非正式性,不够严谨。但他指出的事实令人错愕,也令人印象深刻。为了验证刑事判决中是否确实存在噪声,一些研究者紧随其后,展开了进一步研究。

1974年,弗兰克尔主导了一项早期的大规模研究。研究人员要求来自美国不同地区的50名法官给一系列虚构案件中的被告量刑,这些虚构的案件汇总于完全相同的待判决报告中。这项研究的基本发现是:法官们“缺少共识是常态”,各种量刑之间的差异“令人震惊”。根据法官的不同,一个贩卖海洛因的毒贩可能被判1~10年有期徒刑,银行抢劫犯可能被判5~18年有期徒刑。在敲诈勒索案中,量刑从最高的20年有期徒刑外加65 000美元罚款,到仅3年有期徒刑且无罚款不等。最令人吃惊的是,对于20起案件中的16起案件,法官们竟然对被告应判多少年无法达成一致意见。

在这项研究之后,人们还进行了一系列其他研究,所有研究都发现了类似的、令人震惊的“噪声”。例如,1977年,威廉·奥斯汀(William Austin)和托马斯·威廉姆斯(Thomas Williams)对47名法官进行了一项调查,要求他们对同样的5起案件做出判决,每起案件均涉及轻罪。对案件的所有描述资料包括法官在实际判决中使用的信息列表,如指控、证词、既往犯罪记录、社会背景和与性格相关的证据。该研究的重要发现是,法官的判决之间存在“大量差异”。例如,在一起涉及入室盗窃的案件中,建议的刑期从5年有期徒刑到仅监禁30天并处以100美元罚款不等;在一起涉及非法持有大麻的案件中,一些法官建议判处被告监禁,而一些法官则建议判处缓刑。

在1981年进行的一项更大规模的研究中,被试为208名美国联邦法官,这些法官要对16起完全相同的虚构案件进行判决。该研究的结果同样令人震惊:

在这16起案件中,法官们只对3起案件一致同意判处监禁,但即使在大多数法官同意判处监禁的情况下,他们建议的刑期长短也存在很大差异:在一起诈骗案中,法官们建议的平均刑期为8.5年,而最长的刑期是终身监禁;在另一起案件中,法官们建议的平均刑期为1.1年,而最长的刑期为15年。

尽管上述研究颇具启发性,但它们毕竟都进行了严格的实验控制,所以几乎可以肯定,它们还是低估了现实世界刑事司法中的噪声数量。在现实生活中,法官接触到的信息远远多于被试在这些精心设计的实验中得到的信息。诚然,一些额外的信息与案件是相关的,但也有充分的证据表明,一些微小或看似随机出现的无关信息反而会导致判决结果出现巨大差异。例如,相比于较疲劳时,在一天的开始时段或饭后休息充分时,法官更有可能批准假释;如果处于饥饿状态,他们则会更加严格。

一项针对几千个青少年法庭判决案例的研究发现:当本地足球队在周末输掉比赛后,法官在接下来的星期一会做出更严厉的判决,在本星期其他时间的判决则更为宽容。黑人被告首当其冲地受到这种更严厉判决的影响。另一项研究调查了过去30年中的150万个司法判决案例,也发现了类似的结果,即相比于赢球后的情况,如果当地球队在开庭前一天输球,法官会做出更加严厉的判决。反之,法官就会比较宽容。

研究人员对法国法官在过去12年内做出的600万个判决进行了研究,发现如果判决日恰好是被告的生日(1),那么法官往往会较为宽容。甚至,像室外温度这种无关紧要的因素也会影响法官的决策,通过对过去4年移民法院做出的207 000份判决进行分析发现,气温的变化会对判决结果产生很大影响:当室外温度很高时,申请人获得庇护的可能性比较小。如果你希望获得庇护,那么你应该祈祷你的听证会那一天正好天气凉爽。

减少判决中的噪声

20世纪70年代,弗兰克尔法官的论点以及支持这些论点的实证结果引起了爱德华·肯尼迪(Edward Kennedy)的注意,爱德华·肯尼迪是美国前总统约翰·肯尼迪的弟弟,也是美国参议院最有影响力的成员之一。早在1975年,爱德华·肯尼迪就提议推行量刑改革法案,但遗憾的是并无任何进展。爱德华·肯尼迪不屈不挠,他年复一年地敦促美国国会实施该法案,并最终在1984年取得了成功。面对这些不合理的、具有差异性的量刑案件的证据,美国国会终于颁布了《1984年量刑改革法案》(Sentencing Reform Act of 1984)。

该法案希望,通过减少“法律赋予负责量刑、执行判决的法官和假释机构的不受约束的自由裁量权”来降低系统中的噪声。尤其是,国会议员在提到“过于悬殊”的量刑差异时,特别引用了纽约地区的调查发现:对相同真实案件的量刑可能是监禁3年,也可能是监禁20年。就像弗兰克尔法官建议的那样,国会立法允许设立美国量刑委员会(US Sentencing Commission),其主要职责很明确:发布强制性的量刑指南,并确立其限制范围。

1985年,量刑委员会通过分析1万起真实案件中类似罪行的平均刑期,制定了量刑指南。参与这一过程的美国最高法院法官斯蒂芬·布雷耶(Stephen Breyer)试图通过指出委员会内部存在的棘手分歧为过去的做法辩护:“为什么委员们不坐下来,真正使这件事合理化,而不仅仅是拿过去说事?原因很简单,我们不能这样做。我们之所以不能这样做,是因为有大量充分的证据表明我们应该采取截然相反的做法。你可以试图按照等级顺序列出所有罪行,考察其应该受到什么样的惩罚,然后收集你的朋友给出的结论,看看结论是否一致。我可以告诉你的是,不可能一致。”

根据量刑指南,法官必须在量刑时考虑两个因素:被告所犯罪行和被告的犯罪记录。根据罪行的严重程度,量刑指南将罪行分为43个等级。被告的犯罪记录则主要指被告以前被定罪的次数和判决的严重程度。一旦将罪行和犯罪记录结合起来,法官就能根据量刑指南确定一个相对具体的量刑范围,其最高刑期与最低刑期之间的差距不得超过6个月或25%。法官也可以偏离该范围来加重或减轻处罚,但必须向法院说明理由

虽然量刑指南是强制性的,但是它也并非完全没有调整的余地。它并没有达到弗兰克尔法官所希望的程度,也为法官提供了较大的裁量空间。最后,使用了各种不同方法并关注一系列不同历史时期的几项研究都得出了相同的结论:该指南可以减少噪声。更准确地说,它减少了由于量刑法官身份的偶然性而导致的判决中出现的净差异

在那之后,美国量刑委员会对量刑指南的效果进行了详尽的研究。他们比较了1985年(该指南生效前)与1989年1月19日至1990年9月30日期间(该指南生效后)银行抢劫、贩卖可卡因或海洛因,以及挪用银行公款案件中的判决。结果发现,当法官根据量刑指南中的相关因素对罪犯进行判决时,量刑结果更为一致。《1984年量刑改革法案》实施之后,法官对每个等级的罪行的判决差异都比原先少很多。

另一项研究表明,1986—1987年,法官之间在刑期长短上的差异为4.9个月;而1988—1993年,这一数字下降至3.9个月一项涵盖了不同时期数据的独立研究发现,量刑指南在减少法官之间的量刑差异方面取得了类似的成效。量刑差异是指审理过相似数量案件的法官在判决的平均刑期上的差异。

尽管有了这些发现,量刑指南还是遭到了猛烈的抨击。一些法官认为,有些判决过于严厉。事实上,这一点涉及的是偏差,而不是噪声。就我们的目的而言,一个更为有趣的反对意见是:许多法官认为该指南极度不公平,因为它会妨碍法官充分考虑案件的具体情况。减少噪声的代价就是使决策变得更机械化,这让人难以接受。耶鲁大学法学教授凯特·斯蒂斯(Kate Stith)和美国联邦法官乔斯·卡布拉内斯(José Cabranes)写道:“我们不能对案件的细节视而不见。我们要有洞察力,注重公平性,只有在判断过程中充分考虑特定案件的复杂性,才能做到这一点。”

这一反对意见给量刑指南带来了严峻挑战,有些是法律层面的,有些则是政策层面的,但都未能动摇该指南的效用。直到2005年,美国最高法院才取消了该指南,主要是由于技术原因,而与此处涉及的争论完全无关。根据美国最高法院的裁决,该指南之后仅作为参考建议。在美国最高法院做出这一裁决后,大多数法官感到更开心了。因为75%的法官更喜欢建议性制度,只有3%的法官认为强制性制度更好。

将量刑指南从强制性改为建议性,会带来什么影响?哈佛大学法学教授克丽丝特尔·杨(Crystal Yang)没有采用实验或调查的方法对这个问题进行研究,而是利用了庞大、真实的判决案例集。该案例集涉及近40万名刑事被告。通过多种测量方法,她的核心发现是:法官之间的量刑差异在2005年后明显增加。当该指南是强制性准则时,相比于严厉程度一般的法官,相对严厉的法官判处的刑期仅会多2.8个月;当该指南仅作为建议时,这种差异增加了一倍。像40年前的弗兰克尔法官一样,克丽丝特尔·杨写道:“我的发现引起了人们对公平的广泛关注,因为在很大程度上,量刑法官身份的不同造成了‘同罪不同罚’这一不公正现象。”

在量刑指南成为建议性准则之后,法官更有可能根据自己的价值观做出判决。可见:强制性准则既能减少偏差,也能减少噪声。在美国最高法院做出将量刑指南作为参考建议的裁决后,美国非裔被告与犯有相同罪行的白人被告之间的量刑差距明显增加。同时,女性法官比男性法官更有可能行使她们日益增加的自由裁量权,从而对犯人做出宽大处理。

弗兰克尔在2002年去世,3年后,强制性的量刑指南被取消,美国人又开始重新经历他所说的噩梦:无秩序的法律。

弗兰克尔法官为争取量刑指南而战的故事,能够让我们一窥本书将要论述的几个关键点。

第一,世界充满复杂性与不确定性,因此判断是一件困难的事情。这种复杂性在司法领域显而易见,在其他大多数需要专业判断的情形中也是如此。从广义上讲,这些情形包括由医生、护士、律师、工程师、教师、建筑师、招聘委员会成员、图书出版商、各类企业高管以及球队经理人等所做的判断。凡是判断,就不可避免地存在分歧。

第二,分歧的程度比我们预想的大得多。尽管很少有人会反对司法自由裁量权原则,但几乎每个人都会反对它所产生的差异。在理想情况下,判断应该完全相同,不应该存在差异。因为差异会导致层出不穷的不公平现象、高昂的经济成本和多种类型的错误。

第三,噪声是可以减少的。由弗兰克尔倡导并由美国量刑委员会实施的方法——颁布强制性量刑指南,是成功减少噪声的几种方法之一。另外,还有一些方法更适用于其他类型的判断。一些减少噪声的方法同时也可以减少偏差。

第四,减少噪声的努力往往会招致反对,让人举步维艰。这些问题必须得到解决,否则对抗噪声的斗争最终还是会失败。