第17章
噪声源,偏差是引人注目的图形,而噪声是不受我们关注的背景

哪里有判断,哪里就有噪声,希望你现在也认同这一观点。我们也希望,对你而言这已不再是一件超乎想象的事。这也正是我们着手开展研究的主要动力。经过多年的努力,我们对这个问题的思考已经逐渐深入和完善。现在,来回顾一下我们已经了解的噪声成分、这些成分对噪声的重要影响以及它们在判断中所起的作用。

噪声成分:影响判断的3种噪声

图17-1是我们在第5章、第6章和第16章中介绍的3个方程式的一个组合图,该图展示了对误差的3个连续的分解:

· 将误差分解为偏差和系统噪声。

· 将系统噪声分解为水平噪声和模式噪声。

· 将模式噪声分解为稳定的模式噪声和情境噪声。

现在,你可以看到均方误差如何被分解为偏差以及我们曾讨论过的3种噪声成分的平方

开始着手这一研究项目时,我们关注偏差和噪声在总误差中所占的相对权重。我们很快得出结论:相比于偏差,噪声通常是误差的主要成分,因此噪声非常值得我们进一步探索。

我们早期对噪声成分的思考基于复杂的噪声审查框架。在该框架中,多个人对多个案例做出判断。美国联邦法官的研究以及惩罚性损害赔偿的研究,都是这样的例子。从这些研究中获得的数据能够对水平噪声进行可靠的估计。另外,虽然每个参与者都对每个案例进行了判断,但只进行了一次,因此无法判断残差是变化的还是稳定的。我们将残差称为模式误差。依据统计分析的保守性原则,残差通常被视为随机误差。换句话说,模式噪声被完全默认为情境噪声。

很长一段时间以来,这种将模式噪声解释为随机误差的传统做法限制了我们的思维。专注水平噪声,比如严厉和宽容的判断者之间、乐观和悲观的预测者之间的稳定性差异,似乎是自然而然的事。但是,有证据表明,那些无关的、变化的环境也会影响判断,从而产生情境噪声,这引起了我们的研究兴趣。

这些证据让我们逐渐认识到,人们做出的判断之所以充满噪声,很大程度上既不是因为个体的普遍性偏差,也并非变化的或随机的因素所致;特定个体对多重特征持续出现的个体化反应,决定了他们对具体案例的反应。我们最终得出结论,我们应该摈弃“模式噪声是随机变化的”这一观点。

虽然我们很想谨慎一点,尽量避免根据有限的案例做出过度概括的陈述,但是整合所做的研究后,我们发现,稳定的模式噪声实际上比系统噪声的其他成分更为重要。我们很少在同一研究中全面地探究误差的各个组成部分,因此需要进行精确的分析才能得出这样一个暂时性的结论。简而言之,以下就是我们已知和未知的内容。

成分的大小:稳定的模式噪声几乎是水平噪声的4倍之多

首先,我们对水平噪声和模式噪声的相对权重进行了几种估算。总体而言,模式噪声似乎比水平噪声对系统噪声的影响更大。例如,在第2章提到的保险公司的例子中,不同核保人在平均保费上的差异仅占总体系统噪声的20%,剩余的80%都是模式噪声。在第6章提到的美国联邦法官的例子中,水平噪声(平均严厉程度的差异)在总体系统噪声中的占比略低于一半,而模式噪声则占一半以上。在惩罚性损害赔偿的实验中,系统噪声的总量在不同量表(惩罚倾向、愤怒程度或赔偿金额)上差别较大,但模式噪声的占比却基本恒定:三种量表下,模式噪声分别约占总体系统噪声的63%、62%和61%。在第五部分,我们将介绍其他一些研究,特别是有关人事决策的研究,其研究的结果都与这一暂时性的结论一致。

在这些研究中,水平噪声通常不是系统噪声的最主要成分。这一事实已经传递了一则非常重要的信息,因为水平噪声是唯一一种(有时)无须组织进行噪声审查就可以监测到的噪声。当案例或多或少地被随机分配给各个专业人员时,他们的决策的平均差异就是水平噪声。例如,针对专利局的研究发现,审查员授予专利的平均倾向性存在很大差异,进而影响了有关这些专利的诉讼发生率。同样,儿童保护部门的官员决定将儿童送到寄养家庭或寄养机构的倾向性也不同,这会对儿童的命运产生长期影响。这些观测都仅仅基于水平噪声的评估。这些研究揭示的噪声问题令人震惊,但是,如果模式噪声多于水平噪声,那么它所反映的噪声问题的严重性至多只是实际情况的一半。这一暂时性结论也有例外。法官在关于是否提供庇护的裁决中出现的令人震惊的巨大变异,几乎可以肯定更多地源自水平噪声,而非模式噪声,但我们怀疑其中的模式噪声也很多。

下一步,我们通过对模式噪声的两种成分进行分解来对其进行分析。我们有充分的理由认为,模式噪声的主要成分是稳定的模式噪声而非情境噪声。对美国联邦法官在量刑中存在的噪声进行审查,展示了我们的推理过程。我们首先假设了一种极端情况,即所有的模式噪声完全是随机变化的。在这一假设前提下,法官们的量刑会随着时间的推移变得十分不稳定和不一致,乃至达到毫无道理可言的程度。因此,我们不得不做出这样的推测:同一法官在不同情境中对同一案件量刑的平均差异达到2.8年左右。法官之间在平均量刑上的差异已经够令人震惊的了,要是同一名法官在不同情境下的量刑也存在这么大的差异,那实在是太荒唐了。因此,得出以下结论似乎更为合理:法官们会对不同的被告和不同的罪行做出有差异的反应,这种差异虽极为个体化,却是稳定的。

为了更加准确地量化模式噪声中有多少是稳定的模式噪声,又有多少是情境噪声,我们需要让同一名法官对每起案件进行两次独立评估。我们发现,在对判断的研究中通常不可能获得两个独立的判断,因为很难保证对案例的第二次判断完全独立于第一次判断。尤其是,当判断很复杂时,做出判断的人很可能会发现这是同一个问题,从而重复最初的判断。

亚历山大·托多罗夫(Alexander Todorov)带领普林斯顿大学的一组研究人员设计了一个巧妙的实验范式,攻克了这一难题。他们从“亚马逊土耳其机器人”(Amazon Mechanical Turk)(8)网上招募了参与者。在他们的一项实验中,参与者观看了一些面孔图片(由计算机程序生成,但与真人面孔无异),并对这些面孔的各项属性进行了评分,比如亲和力、值得信赖程度等。一个星期后,实验人员用相同的面孔让相同的答卷人重复了该实验。

我们有理由认为,本实验中判断的一致性程度会低于专业人士的判断,如法官的量刑。虽然差不多每个人都会认同,有些面孔极具吸引力,有一些则令人反感,但在很大范围内,我们可以推测,对面孔的反应存在很大的个体差异。确实,观察者之间几乎没有共识。比如,在值得信赖程度的评分上,面孔图片之间的差异所导致的变异仅占判断变异的18%,剩余82%的变异都是噪声。

我们也有理由推测,这些判断的稳定性较差,因为实验参与者只是为了赚钱而参与在线答题,其判断品质会远低于专业判断。然而,实验结果发现,噪声的最主要成分还是稳定的模式噪声,其次才是水平噪声,即不同的观察者对诸如面孔值得信赖的程度等属性的平均评分上的差异。情境噪声虽然也很大,但占比最小。

要求参与者做出其他判断,比如有关汽车或食物的偏好,或是回答一些接近专业判断的问题时,研究人员也得出了相同的结论。比如,在第15章中讨论的惩罚性损害赔偿的一项模拟研究中,参与者针对10个人身伤害案件评定了他们的惩罚倾向,两次评分之间间隔一个星期。同样,稳定的模式噪声是噪声最主要的成分。在所有这些研究中,判断者给出的结果彼此不一致,但他们自身的判断仍保持稳定。用研究人员的话说,这种“缺乏共识的稳定性”,为稳定的模式噪声提供了清晰的证据。

关于稳定的模式噪声所起作用的最有力证据,来自我们在第10章中提到的对保释法官的大规模研究。在这项杰出研究的一个部分中,研究者创建了一个统计模型,该模型可以模拟每位法官如何使用手头的线索来决定是否批准被告的保释申请。他们建立了173名法官的个性化模型,然后运用这些模型来模拟法官对141 833个案例做出的判决,每个案例产生了173个判决——判决总数超过2400万。应我们的要求,研究者慷慨地进行了特定分析,他们将判断的变异分为三部分:每个案例平均决策的“真实”变异、法官们在保释倾向上表现出的差异所导致的水平噪声,以及剩下的模式噪声。

这一分析的结果与我们的观点相符,因为该研究所测得的模式噪声完全是稳定的。这项研究是对预测法官决策的模型进行的分析,因而无法体现情境噪声的随机变异性。这些数据仅包含可验证的、稳定的个体预测规则。

结论非常明确:稳定的模式噪声几乎是水平噪声的4倍——稳定的模式噪声占总变异的26%,而水平噪声占总变异的7%。这种可识别、稳定、特异性的个体模式,要比不同法官之间审判的严格程度的差异大得多。

所有这些证据与我们在第7章中讨论的有关情境噪声的研究结果一致:尽管情境噪声的存在让人惊讶甚至不安,但没有迹象表明个体内部的变异大于个体间的变异。系统噪声中最主要的成分恰恰是最开始被我们忽略的成分——稳定的模式噪声,即法官们对特定案例做出的判决中的变异性。

考虑到相关研究较为匮乏,我们的结论只是暂时性的,但它们反映了我们对噪声的态度以及应对方式的改变。从原则上说,水平噪声——法官之间简单、全面的个体差异,应该是一个相对容易测量和解决的问题。如果有异常“严格”的评分者,或异常“谨慎”的儿童监护权法官,抑或十分厌恶承担风险的贷款人,雇用他们的机构可以试图使他们的判断维持在平均水平。例如,大学会要求教授们在评分时遵守事先确定好的成绩分布。

很可惜,我们发现,专注水平噪声会遗漏掉很大一部分个体差异。大多数噪声都不是水平差异的产物,而是交互的产物,如不同的法官如何对待特定的被告,不同的老师如何对待特定的学生,不同的社会工作者如何对待特定的家庭,不同的领导如何对待特定的公司愿景……噪声主要是我们的独特性或“判断人格”的副产品。降低水平噪声依旧是一个有价值的目标,但仅达到此目标仍然未能解决大部分的系统噪声问题。

对误差的解释

与噪声有关的很多问题都值得关注,但公众并没有意识到这些问题,有关判断与误差的讨论也几乎很少涉及噪声。尽管有证据表明噪声是存在的,并且产生噪声的机制很多,但人们很少将噪声作为影响判断的主要因素。为什么会这样呢?为什么我们从不用噪声来解释糟糕的判断结果,而是将其归咎于偏差呢?既然噪声无处不在,为什么人们很少将其作为判断误差的来源呢?

这个难题的关键在于:尽管误差的平均值(偏差)和变异性(噪声)在误差方程中起着同等作用,我们却是以截然不同的方式来看待它们的。我们对周遭世界进行合理化的常规方式让我们几乎无法识别噪声的作用。

在本书前面的章节中我们已经指出,人们在事前很难对事件进行预测,但对其进行事后解释却很容易。常态谷中的事件通常不足为奇,也容易解释。

判断也是如此。像其他事情一样,大多数判断和决策也发生在常态谷中,它们通常不会令人惊讶。如果对某件事的判断已经产生了令人满意的结果,那么该判断就是再正常不过的了,因而很少遭到质疑。当任意球的射手射门得分时,当心脏病手术成功时,当创业成功时,我们会认为决策者一定是根据正确的原因做出的选择。毕竟,这些原因已经被其结果证明是正确的。就像其他不足为奇的故事一样,一个成功的故事,一旦结果已知,就能自圆其说了。

然而,我们还是觉得需要对异常的结果进行解释,包括那些糟糕的结果,有时也包括好到出奇的结果,比如一个令人难以置信的商业冒险最终却获得了成功。用误差或特殊才能来解释这些结果是很普遍的做法,因为对于过去的重大冒险行为,一旦结果已知,人们就很容易将其解释为因为天才或愚蠢。心理学中著名的基本归因偏差说的就是这种倾向,人们通常会将责任或功劳归因于行动者。事实上,将这些结果解释为运气或客观环境所致或许更合适。另一个心理偏差,即后见之明偏差,则扭曲了人们的判断,从而导致那些无法预料的结果从事后看来是很容易预见到的。

对判断误差做出解释并非难事。为判断找原因比为结果找原因要容易得多。我们总是倾向于用动机来解释人们的判断。如果用动机不足以做出解释,我们还可以将误差归结为他们的无能。近几十年来,出现了另一种对糟糕的判断进行解释的常见心理机制:心理偏差。

心理学和行为经济学的大量研究发现了一长串的心理偏差,包括计划谬误、过分自信、损失规避、禀赋效应、现状偏差、未来过度折现(即刻偏差)等,当然也包括针对不同人群的歧视或偏好。人们已经很了解这些偏差在何种情况下会影响判断与决策,对于决策观察员怎样实时地对偏差进行识别也已知之甚多。

如果心理偏差可以被事先预测或被实时检测出来,那人们就可以对判断误差做出合理的因果解释。即使偏差只能被事后识别,只要它可以对未来做出预测,那也能够提供有意义的、暂时性的解释。例如,一名优秀的女性应聘者出人意料地应聘失败了,那么可以据此做出一个一般性的假设——存在性别歧视,可以通过对后续的招聘决策进行分析来证实或驳斥这一假设。相反,想象一个仅适用于某一具体事件的因果解释:在那个案例中,他们失败了,一定是因为他们过分自信了。这种说法没有任何实际意义,但它提供了一种让人感到满意的理解错觉。商学院教授菲尔·罗森茨威格(Phil Rosenzweig)坚定地认为,在讨论商业结果时,用偏见去进行空洞的解释是非常普遍的,这是因为人们迫切需要一个使经验合理化的故事。

从统计学上说,噪声无处不在

正如我们在第12章中指出的那样,我们惯常使用因果思维。我们会自然而然地去关注特定的事件,追踪并创建出因果连贯的故事。这其中,失败往往被归因于误差,而误差往往被归因于偏差。糟糕的判断结果很容易被解释,因而没有为用噪声解释误差留有余地。

因果思维的直接后果是我们看不见噪声。噪声本质上是一种统计概念:只有当我们采用统计思维对一组相似的判断进行思考时,噪声才可见。事实上,此时很难对噪声视而不见:它是对量刑判决和保费核准进行事后统计时呈现出的变异性;它是当你和其他人思考如何预测未来的结果时呈现出的各种可能性的范围;它是靶子上那些散布的弹孔。从因果性上说,噪声并不存在;从统计学上说,它无处不在。

很遗憾,用统计思维看待噪声并非易事。我们毫不费力地就能为观察到的事件找出理由,但是若要对其进行统计学思考,必须学习并持续努力。因果思维是与生俱来的,而想要使用统计思维则困难重重。

这严重影响了我们是将偏差还是将噪声视为误差来源的选择。如果你接触过普通心理学,你可能还记得一幅插图:在模糊的背景中,一个突出而又充满细节的人物会脱颖而出。虽然人物很小,背景很大,但我们的注意力仍然会牢牢地集中在人物身上。图形/背景的例子可以与人类关于偏差和噪声的直觉进行很好的类比:偏差就是引人注目的图形,噪声则是不受我们关注的背景。这就是为什么我们在很大程度上意识不到自己的判断中存在重大缺陷。