第15章
选取精确的量表,并多用相对判断

假设你是民事审判案件中的一名陪审员。你目前所掌握的证据大致如下,你要据此做出判断。

琼·格洛弗(Joan Glover)诉General Assistance公司案

一个名叫琼·格洛弗的6岁小女孩吞下了大量非处方抗过敏药AllerFree,需要住院治疗很长时间。大剂量的药物使她的呼吸系统变得很脆弱,因此她很容易患上哮喘、肺气肿一类呼吸系统疾病。AllerFree药瓶的儿童安全盖设计是有问题的。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

AllerFree的生产商是General Assistance公司,这是一家年利润为1亿~2亿美元的大型制药公司,生产各类非处方药。美国的一项联邦法规规定,所有药瓶都必须使用儿童安全盖。General Assistance公司完全无视该法规的初衷,在生产过程中使用了一种故障率比其他产品高很多的儿童安全盖。该公司的一份内部文件提到“这种愚蠢、完全没必要的联邦法规就是在浪费纳税人的钱”,并说他们受到惩罚的风险很低。该文件还提到:“就算是因为违反了这个法规而受到惩罚,那也是极其轻微的,不过就是要求我们今后提高保护盖的安全性而已。”尽管美国食品药品监督管理局的一名官员曾就该公司的安全盖问题提出警告,但该公司仍决定不采取任何纠正措施。

接下来,请你认真思考,然后做出三个判断。

阅读 ‧ 电子书库

琼·格洛弗的故事是本书的两位作者卡尼曼、桑斯坦以及我们的朋友兼合作者戴维·施卡德(David Schkade)在1998年报告过的一项研究中使用过的例子,但略微做了简化。我们将在本章详细介绍这项研究,希望你能体验其中的一项任务,因为目前我们已将这项研究视为噪声审查的一个富有启发性的案例,而且它重现了本书的多个主题。

本章的重点是介绍反应量表(response scale)的作用,它是最为普遍的一种噪声来源。人们的判断有所不同,可能并不是因为他们的判断有实质性的差异,而是因为他们使用量表的方式不同。假设你对员工绩效进行评级,在0~6分的量表上,你评了4分,在你看来这是很不错的分数。但是,对于相同的量表,有人可能觉得3分就已经是不错的分数了。“量表”的描述模糊不清是一个普遍的问题。已有很多研究分析了“高度怀疑”“清晰而有说服力的证据”“出色的表现”“不太可能发生”等模糊表达所引起的沟通障碍。用这样的短语表达的判断不可避免会产生噪声,因为说者和听者对它们的理解是不同的。

在琼·格洛弗案件的研究中,我们发现表述不够清晰的量表可能引发严重的后果。该研究的主题是经陪审团裁决的惩罚性损害赔偿中存在的噪声。从琼·格洛弗案的第三个问题可以看出,美国以及其他一些国家的法律允许陪审团在民事案件中要求行为特别恶劣的被告履行惩罚性损害赔偿。惩罚性损害赔偿是对补偿性损害赔偿的补充,目的是进一步补偿受害者。像琼·格洛弗案那样,当某种产品已经造成伤害且原告成功地起诉了该公司时,被告公司将给予原告经济补偿,用于支付原告的医疗费用、弥补原告的收入损失等。同时,原告也可能会获得惩罚性损害赔偿,用于警告被告以及与被告有相似行为的公司。在此案中,General Assistance公司的行为显然应该受到惩罚,陪审团要求该公司履行惩罚性损害赔偿属于合理的诉讼请求。

惩罚性损害赔偿制度的一个主要问题是它的不可预测性。同样的不当行为造成的损害程度不同,因此相应的惩罚也没有统一的标准。用本书的术语来说,这个系统是有噪声的。惩罚性损害赔偿的诉讼请求常常被驳回,即使得到批准,其赔偿金额也不会使总金额相较于补偿性损害赔偿的金额有太多增加。但也存在一些例外,有些案件中,陪审团所裁定的惩罚性损害赔偿金额高得离谱,令人瞠目结舌。一个耳熟能详的例子是,一家汽车经销商被处以400万美元的惩罚性损害赔偿,理由是该公司未告知原告,他们售卖的新宝马车是重新喷过漆的

我们对惩罚性损害赔偿进行了研究,邀请了899名参与者对琼·格洛弗案以及其他9起类似案件进行了评估。在这些案件中,原告都受到了损害,并起诉了据称应负相应责任的公司。与你刚刚体验的过程不同,在本项研究中,参与者仅需针对这10起案件回答上述3个问题(愤怒程度、惩罚意向和赔偿金额)中的1个。然后,参与者被进一步划分为不同的小组,并被告知每起案件的一个版本。在这些不同版本的案件中,原告遭受伤害的程度和被告公司的收入水平均有所不同,实验条件总共有28种。该研究的目标是验证与惩罚性损害赔偿有关的一个心理学理论,并考察金钱量表(在该实验中以美元为单位)在这套法律体系中,作为噪声的主要来源所起的作用。

愤怒让我们快速启动快思考系统

几个世纪以来,哲学家和法学家一直在争论如何确定公正的惩罚。但是,我们的假设是,这一困扰哲学家的问题对普通人来说很好解决,因为后者会用一个简单的问题代替困难的问题,从而简化任务。当有人问你,General Assistance公司应该被处以多少数额的罚款时,你会直接选择回答“我有多生气”这个简单的问题。因此,惩罚倾向的强度就与愤怒程度匹配了起来。

为了验证这种愤怒假设,我们要求不同小组的参与者要么回答惩罚倾向问题,要么回答愤怒程度问题。然后,我们比较了该研究中28种实验条件下参与者在这两个问题上的平均评分。正如假设所预期的,愤怒程度和惩罚倾向的平均评分之间的相关系数高达0.98(PC=94%)。这种高相关性支持了愤怒假设,即愤怒情绪是惩罚倾向的主要决定因素

愤怒是惩罚倾向的主要驱动力,但并不是唯一的驱动力。你是否意识到,在琼·格洛弗的故事中,相比对愤怒程度进行评级,你对惩罚倾向进行评级时,有一个细节吸引了你的更多注意?如果你意识到了,我们猜这个细节应该就是琼受到的伤害。在不清楚后果的情况下,你就可以判定某种行为是否令人发指,例如本案中General Assistance公司的行为就属于此类。而判断惩罚倾向的直觉性思维往往带有报应的色彩,报应粗略的表现就是“以牙还牙”原则。对报应的这种强烈渴望解释了为什么法律和陪审团对谋杀未遂和谋杀已遂的态度会有如此大的差别。如果一个意图行凶之人“有幸”杀人未遂,他受到的惩罚将轻得多。

为了验证损害程度是否会影响惩罚倾向而不影响愤怒程度,我们给不同组的参与者展示了琼·格洛弗案及其他几起案件的“严重损害”版本和“轻度损害”版本。严重损害的版本就是本章开头介绍的那个。在轻度损害的版本中,琼“不得不住院数日,且各类药物给她造成了严重的精神创伤。当她的父母尝试让她服用维生素、感冒药等对身体恢复有益的药片时,她会失控大哭并说自己很害怕”。这个版本描述了这个孩子的创伤经历,但是其损害程度远低于第一个版本中描述的长期生理损伤。在严重损害版本和轻度损害版本中,参与者对愤怒程度的平均评分(前者为4.24,后者为4.19)几乎相同。这与我们的预期相符,因为只有被告的行为对愤怒情绪有影响,这种行为引发的后果对愤怒情绪则没有影响。相比之下,严重损害版本的惩罚倾向平均评分为4.93,轻度损害版本的惩罚倾向平均评分为4.65,虽然差异不大,但这在统计学上已经很显著了。严重损害版本中赔偿金的中位数为200万美元,轻度损害版本中赔偿金的中位数为100万美元。其他几个案例也得到了类似的结果。

这些发现体现了判断过程的关键性特征:不同的判断任务会对证据不同方面的权重产生微妙的影响。对于评定惩罚倾向和愤怒程度的参与者来说,他们自己都没有意识到自己对“法律制裁是否应基于报应原则”这一哲学问题所持有的立场。他们甚至都不知道如何为案件的各种特征分配权重。不过,他们在对愤怒程度评分时,为损害分配的权重几乎为0,而在确定惩罚倾向时给这一因素分配了相当大的权重。请回想一下,参与者只看到了该故事的一个版本。因而,他们在对更严重的损害给予更严厉的惩罚时,结果的产生并非是基于仔细比较,而是因为他们在两个版本中进行了自动匹配。参与者的反应更多依赖于快思考系统而非慢思考系统。

充满噪声的量表

该研究的第二个目标是找出惩罚性损害赔偿为何会充满噪声。我们的假设是,对于被告应该受到多严重的惩罚这一问题,陪审团的想法往往是一致的,但对于如何将惩罚意图转化到赔偿金额这一量表上,他们出现了很大的分歧。

该研究设计比较了在相同案件的判决中,三种量表中存在的噪声数量,这三种量表分别是愤怒程度、惩罚倾向和赔偿金额(美元)。为了测量噪声,我们采用了本书第6章分析美国联邦法官的噪声审查结果时使用的方法。在那项分析中,我们假设某一案件中所有人的判断均值可以被看作是无偏差、公正的值。这只是出于分析目的所做的假设。需要强调的是,这个假设可能是错的。在理想状况下,陪审员使用的量表对每起案件的判断都应该是一致的。任何偏离平均值的判断都被视为误差,这些误差是系统噪声的来源。

第6章提到,系统噪声可分为水平噪声和模式噪声。在这里,水平噪声是指不同陪审员通常的严厉程度的变异,而模式噪声是指某位陪审员对不同案件的反应相对于其自身平均值的变异。因此,我们可以将判断的总体变异分解为三个组成部分,公式见下面。

判断方差

=

公正惩罚的方差

+

水平噪声2

+

模式噪声2

Variance of Judgments

=

Variance of Just Punishments

+

(Level Noise)2

+

(Pattern Noise)2

这种分析方法将判断的方差分解为三个部分,分别对愤怒程度、惩罚倾向和赔偿金额这三种判断进行了分析。

图15-1显示了分析结果。噪声最少的量表是惩罚倾向,其中系统噪声占变异的51%,与公正惩罚的变异几乎一样多。愤怒程度比惩罚倾向的量表噪声量更大,达到71%。到目前为止,赔偿金额量表的噪声量是最大的,判断中有94%的变异为噪声!

阅读 ‧ 电子书库

图15-1 判断变异的组成部分

三者的差异之所以令人惊讶,是因为这三种量表测量的内容几乎完全相同。我们在前面已经看到,正如愤怒假设所预测的那样,愤怒程度与惩罚倾向的值几乎完全相关。而惩罚倾向和赔偿金额恰恰回答的是同一个问题,即General Assistance公司应该接受多严重的惩罚,两者不过是单位不同罢了。那么,我们该如何解释图15-1中三种量表出现的巨大差异呢?

我们可能会认为,愤怒并不是一个非常精确的量表。没错,确实存在“完全可以接受”的行为,但是如果要有一个限度来界定你对General Assistance公司或其他被告有多愤怒时,那个限度是非常模糊的。“完全无法容忍”的行为指的是什么?量表缺乏清晰的上限,就会不可避免地产生噪声。

惩罚倾向要相对具体一些。“严厉的惩罚”比“完全无法容忍”更准确,因为法律已经规定了“极其严重的惩罚”的上限。你可能想朝被告扔鸡蛋,但是可能不会提出将General Assistance公司的CEO及其高管全部处死这样的建议。我们希望你不会。惩罚倾向量表的模糊性较低,因为它的上限更加明确。结果也正如我们所料,它的噪声更小。

在衡量愤怒程度和惩罚倾向时,我们使用了类似的评价量表,它们都是由相对明确的文字标签所定义的。但赔偿金额属于另一类量表,它的问题更大。

美元和锚定

我们关于这项研究的学术论文的标题“同样的愤怒,不同的惩罚:惩罚性损害赔偿的心理机制”(“Shared Outrage and Erratic Awards: The Psychology of Punitive Damages”)清楚地表达了其中心思想。在我们的实验中,陪审员们的惩罚倾向评分基本上是一致的,其评分大部分可以由其愤怒程度来解释。但是,赔偿金额能够更真实地模拟法庭情况,其噪声之大让人无法接受。

原因并不神秘。如果你在琼·格洛弗案件中提出了一个具体的损害赔偿金额,你肯定能真实地感受到自己在选择这个数字时实际上是比较随意的。感觉到随意性这件事本身传达了重要的信息:它能告诉你其他人也将随意地做出与你截然不同的决定,判断会充满噪声。事实证明,充满噪声确实是赔偿金额这类量表的一个突出特征。

哈佛大学著名心理学家斯坦利·史密斯·史蒂文斯(Stanley Smith Stevens)发现了一个令人惊讶的事实,那就是人们对许多主观体验和态度的强度比例都有着强烈的直觉。他们可以调整光线强度使其看起来是另一种光线亮度的“2倍”,人们会觉得10个月监禁的情感体验并不等于一个月监禁的10倍。史蒂文斯说,量表就是依据这类直觉等比绘制出来的。

你会发现,我们对金钱的直觉是通过理解“萨拉加薪了60%”或“我们的富豪邻居一夜之间损失了一半的财富”这类采用比例的表述而轻松实现的。惩罚性损害赔偿的赔偿金额量表是衡量惩罚倾向的等比量表。同其他等比量表一样,赔偿金额量表有个有意义的零点(0美元),而且没有上限。

史蒂文斯发现,等比量表(如赔偿金额量表)可能会受单个中间锚定点(行业术语是“模数”)的约束。他在实验室中将观察者置于一定亮度的灯光下,并让观察者“将现在灯光的亮度称为10(或50、200),并相应地为其他亮度分配数字”。不出他所料,观察者分配给不同灯光的亮度数值与最初让他们采用的任意锚定点成正比。锚定点为200的观察者给出的判断值是锚定点为10的观察者的20倍。观察者判断的标准差与锚定点成正比。

在第13章中,我们介绍了一个有关锚定效应的有趣例子。在那个例子中,首先询问人们是否要支付与他们社保号后两位数字等金额的费用(以美元为单位)购买某件物品,这个问题极大地影响了他们之后购买该物品的意愿。更令人惊讶的是,最初的价格锚定点也会影响他们购买清单上其他物品的意愿。被说服愿意为无线鼠标支付较高费用的参与者也同意为无线键盘支付较高的费用。相比商品的绝对价值,人们似乎对可拿来比较的商品的相对价值更加敏感。该项研究的作者将单个锚定点的这种持续效应称为锚定的“任意连贯性”(coherent arbitrariness)。

来感受一下任意锚定点对琼·格洛弗案的影响。假设本章开头对该案件的介绍中包括以下信息:

在一个涉及另一家制药公司的类似案例中,受害者是一个小女孩,她遭受了中度的心理创伤(就像你先前读到的轻度损害版本一样)。惩罚性损害赔偿的数额是150万美元。

请注意,这时候如何处罚General Assistance公司这个问题突然就变得容易多了。确实,你可能已经想好了赔偿金额,将前面提到的赔偿金额乘以一个倍数(或比例)就可以了。这个倍数(或比例)对应琼受到的严重损害与另外那个小女孩受到的轻度损害之间的差异。此外,当你读到单一锚定点(150万美元)时,你的整个赔偿金额量表的取值范围基本上就被确定下来了。现在,设置比上述两种情况更严重或更轻微的案件的赔偿金额对你来说也很容易了。

如果人们依据等比量表进行判断时需要锚定点,那么要是没有锚定点,将会发生什么?史蒂文斯给出了答案。在没有实验人员指导的情况下,人们在首次使用量表测量灯光亮度时,不得不随意地选择了一个值。他们将自己选的这个值作为锚定点,基于这个点做出一致性的判断。

你可能会发现,我们为琼·格洛弗案设定赔偿金额时所面临的任务,就是在没有锚定点的情况下确定量表的例子。就像史蒂文斯实验室中没有锚定点的观察者一样,你对General Assistance公司应该受到的惩罚的判断也具有很强的随意性。我们的研究的参与者也面临相同的问题:他们不得不对自己看到的第一起案件随意地做出决定。不过与你不同的是,他们不仅做出了一个随意的决定,而且还要为其他9起案件设定惩罚性损害赔偿。后面这9项判断就不再是随意的了,因为这些判断可以与最初判断的锚定点保持一致,因此它们彼此之间也更加一致。

史蒂文斯实验室的研究说明,个体生成的锚定点将对其随后做出的对赔偿金额绝对值的判断产生很大影响,但对这10起案件赔偿金额的相对值没有任何影响。如果最初判定的赔偿金额很高,那么后续判定的赔偿金额也会很高,但不影响它们的相对大小。这一推论可以得出一个令人惊讶的结论:尽管赔偿金额的判断看起来充满噪声,它却真实地反映了法官的惩罚倾向。为了测量这种惩罚倾向,我们只需用相对分数代替绝对的赔偿金额即可。

为了验证这一想法,我们将每个参与者给出的这10起案件的赔偿金额替换为按金额大小排序的分数,然后再次进行噪声分析。最高金额的排序分数为1,次高金额的排序分数为2,依此类推。这种将赔偿金额转换为排序分数的做法消除了所有陪审员的水平误差,因为除了偶尔会出现分数相同的情况外,1~10分的排序分布对每个人都是一样的。这里要说明一点,该问卷有多个版本,每个人都评判了28个情境中的10个。我们将判断10个相同情境的参与者划分到同一组,然后对各组的反馈分别进行了分析,并且给出了平均值。

结果令人震惊:判断的噪声从94%下降至49%(见图15-2)。将赔偿金额转换为排序后我们发现,实际上,陪审员在不同案件中对什么是合适的惩罚基本达成了共识。事实上,赔偿金额排序中的噪声(如果有的话)还略低于最初的惩罚倾向评分中的噪声。

阅读 ‧ 电子书库

图15-2 数值中的噪声与排序中的噪声

一个不幸的结论

结果与我们提出的理论是一致的:所有案件的赔偿金额均锚定在每个陪审员在遇到的第一起案件中所选择的数字上。案件的相对排名反映了相对准确的态度,噪声水平相对较低;而赔偿金额的绝对数值基本上没有意义,因为它们取决于在第一起案件中选择的任意数字。

颇具讽刺意味的是,陪审员在实际审判中所评估的案件往往是他们遇到的第一起也是唯一一起案件。美国的法律要求民事陪审团为一起案件设定一个赔偿金额,却不给出任何指导性的锚定点。美国的法律还明确禁止向陪审团透露其他案件的赔偿金额。美国法律隐含的假设是,陪审员的正义感将直接引导他们根据对犯罪行为的周详思考,做出正确的惩罚判断。这个假设从心理学上说是不合理的,因为它假设了一种人类不具备的能力。司法机构应承认,司法人员也有局限性。

惩罚性损害赔偿是个极端的例子。专业判断很少用如此模糊的量表。但是,模糊的量表是很常见的,这意味着本书所介绍的惩罚性损害赔偿的研究对于商业、教育、体育、政府管理及其他领域都具有启示性。第一,量表的选取会对判断中产生的噪声量造成很大影响,因为模糊的量表是充满噪声的。第二,如果可以的话,用相对判断代替绝对判断可能会减少噪声