引言 Introduction

偏差与噪声,人类判断的两类错误

试想一下,你的朋友组成了A、B、C、D共4支队伍,来到一个射击场。每队中有5个人,他们共用一支来复枪,且每人只开了一枪。图0-1显示了他们的射击结果。

阅读 ‧ 电子书库

图0-1 4支队伍的射击结果

理想情况是,每一枪都能正中靶心。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

A队几乎达到了理想情况,他们的每一发子弹都紧紧围绕着靶心,接近完美模式。

B队的每一发子弹都偏离了靶心,我们可以称其为偏差队。在图0-1中,我们可以根据B队偏差的一致性进行这样的预测:如果该队中的某位成员再开一枪,我们敢说子弹的落点也会与前5次落点的区域相同。偏差的一致性也许有原因可循:B队使用的来复枪的瞄准器歪了。

C队的子弹落点很分散,我们可以称其为噪声队。子弹的落点大致都在靶心四周,因而没有明显的偏差。如果该队的某位成员再开一枪,我们很难准确预测他可能击中的位置,而且我们也无法从C队的结果想出任何有趣的假设。我们只知道C队的成员不太擅长射击,但确实不知道为什么子弹的落点如此分散,会充斥着如此多的噪声。

D队是偏差与噪声共存队。与B队类似,D队的落点基本上都偏离了靶心;与C队的相似之处在于,D队的落点也很分散。

当然,这不是一本教射击的书,我们的主题是人类判断的错误。偏差和噪声,即系统性偏差和随机分散,是错误的不同组成成分,举射击的例子,只是为了阐明两者的差异。

射击场只是一种隐喻,用来说明人们在做判断时会出现什么样的错误,尤其是在代表组织成员做出各种判断时。在这些情境中,我们会发现图0-1展示的两类错误。有些判断存在偏差,它们整体偏离了目标;有些判断存在噪声,我们期望人们就某个目标达成一致,到头来他们却产生了严重的分歧。很遗憾,很多组织同时受到了偏差和噪声的困扰。

图0-2说明的是偏差和噪声之间的重要区别。如果隐去靶子看各队的子弹落点情况,那么最后每个队的射击结果就会如图0-2所示。

阅读 ‧ 电子书库

图0-2 隐去靶子后的子弹落点情况

此时,你无法分辨是A队还是B队的子弹落点更接近靶心,但你能一眼看出,相比于这两队,C队和D队存在更多的噪声。事实上,你对各队射击结果分散程度的了解与你观察图0-1时一样多。噪声的一个普遍特性是:你可以在对目标或偏差一无所知的情况下,识别噪声,并对它进行测量。

方才提到的噪声的普遍特性,对本书意义重大,因为在本书中,我们的很多结论,也都是通过研究人们在“真实答案”未知甚至永远无法获知的情况下做出的判断而得出的。当不同医生为同一位患者做出了不同的诊断时,我们可以仅研究他们的分歧点,而无须知道患者的病情;当电影公司主管评估一部电影的市场效益时,我们可以仅研究他们意见的差异性,而不必知道这部电影最终的票房,甚至不必知道它有没有拍摄完。也就是说,在衡量这些差异时,我们无须知晓谁对谁错。要测量噪声,我们只需看“靶子的背面”。

要想理解判断中的错误,我们必须同时理解偏差和噪声。有时候,噪声甚至是更为重要的问题。然而,在有关人类错误的公开讨论,以及世界各地的组织中,很少有人认识到噪声的重要性。偏差是台上的主角,而噪声只是幕后的一个不起眼的参与者。已经有成千上万篇科研文章和数十本畅销书讨论过偏差的话题,但讨论噪声问题的作品却少得可怜。本书的写作目的就是修正这一失衡的状态。

在现实的决策中,噪声的数量往往令人触目惊心。下面几个例子展示了在准确性非常重要的场景中,噪声存在的数量有多大:

· 医学诊断中存在噪声。不同医生对同一患者是否患有皮肤癌、乳腺癌、心脏病、肺结核、肺炎、抑郁症等疾病,会做出不同的判断。精神科诊断中的噪声尤其多,显然是因为精神科医生的主观判断对诊断结果起决定性作用。然而,在一些并不应该存在噪声的领域,例如在对X线片报告的解读中,也存在着大量噪声。

· 儿童监护权判定中存在噪声儿童保护机构中的案件负责人需要评估儿童是否存在受虐待的风险,如果存在,则需要进一步评估是否需要将他们送去寄养。鉴于有些案例的负责人比其他负责人更有可能做出将儿童送去寄养的决策,所以该系统存在噪声。多年后,被某些过于严格的负责人送去寄养的不幸儿童,境遇大多很糟糕:犯罪率更高,青少年时期怀孕率更高,收入更低。

· 预测中存在噪声专业的预测人员对新产品的可能销量、失业率的可能增长、经营不善的公司破产的可能性,以及其他各类问题,都会做出分歧非常大的预测。他们不仅意见不一,而且各自的预测也前后矛盾。例如,当同一批软件开发人员被要求在不同的两天中分别评估完成同一任务所需的时间时,他们前后两次估计出的时间平均相差71%。

· 庇护权决策中存在噪声。寻求庇护者能否被允许进入某个国家,就和买彩票差不多。一项研究发现,在将庇护申请随机指派给不同的法官后,一位法官批准了5%的申请,而另一位法官却批准了88%的申请。该研究的标题说明了一切:《难民轮盘赌》(Refugee Roulette)。(在后文中,我们将会看到许多“轮盘赌”。)

· 人事决策中存在噪声。不同面试官对相同应聘者的评估常常大相径庭。类似地,对相同员工的绩效评估,管理者之间也存在着很大差异。结果更多取决于评估者不同,而非被评估者的表现。

· 保释决策中存在噪声。被告是获准保释,还是移送监狱候审,部分取决于审理该案件的法官。有些法官更为宽容,有些则更为严格。法官们对于哪些被告最可能逃逸或再犯的评估,也存在着显著的差异。

· 司法鉴定科学中存在噪声。在我们的认知范围内,指纹鉴定是绝对可靠的。然而,在判定犯罪现场的指纹与犯罪嫌疑人的指纹是否匹配时,指纹鉴定师们的意见有时也会不一致。不仅不同专家之间会产生分歧,即使是相同的专家,在不同场合看到相同的指纹时,也可能做出不同的判断。类似的差异性,在其他司法鉴定领域,甚至是DNA分析中也同样存在。

· 专利权授予决策中存在噪声。关于专利申请的一篇重要研究论文的作者强调了专利申请涉及的噪声:“专利局是授予还是拒绝一项专利申请,很大程度上取决于该项专利申请被分配给了哪一位审查员。”从公平的角度来看,这种差异性显然是有问题的。

上述所有存在噪声的例子不过是冰山一角。无论你观察哪个领域中人类的判断情况,都有可能发现噪声的身影。为了提高判断品质,我们不仅需要克服决策中的偏差,还必须克服噪声。

本书共分为6个部分。在第一部分中,我们探讨了噪声和偏差的区别,并展示了无论是在公共部门,还是在私人机构,噪声都可能存在,其数量甚至达到大得惊人的地步。为了理解这个问题,我们从两个领域的判断着手,第一个领域涉及刑事判决(公共部门),第二个领域涉及保险(私人机构)。乍一看,这两个领域差异巨大,但它们在噪声方面却有很多共同点。为了证明这一点,我们引入了“噪声审查”(noise audit)的概念,目的是衡量一个组织中不同的专业人员对相同的事件在处理意见上存在多大分歧。

在第二部分中,我们研究了人类判断的本质,并探索了如何衡量其准确性和错误数量。判断容易受偏差和噪声的影响。我们将介绍,这两类错误在造成的影响方面具有惊人的一致性。“情境噪声”是指同一个人或同一群体在不同场合中对同一事件做出判断而产生的差异性。我们还发现,群体讨论中存在很多看似无关的因素,比如发言次序,它们却导致了数量极其庞大的噪声。

在第三部分中,我们将深入探讨一种已得到广泛研究的判断类型——预测性判断(predictive judgment)。我们探索了规则、公式和算法在人类做出预测时的关键优势:与大众看法不同的是,与其说规则具有卓越的洞察力,还不如说规则是没有噪声的。我们讨论了影响预测性判断品质的终极局限,即对未来的“客观无知”(objective ignorance),以及这种客观无知如何与噪声一起对预测的品质产生了影响。最后,我们会探讨一个你肯定会问自己的问题:如果噪声无处不在,那为什么我之前没有注意到呢?

在第四部分中,我们转向人类心理学领域。我们解释了噪声产生的根本原因。这些原因既包括由各种因素引起的不同个体之间的差异,也包括个性和认知风格的差异、对不同因素进行加权时思考角度的差异,以及人们在使用相同的量表时出现的理解差异。我们探究了为什么人们会对噪声视而不见,以及他们为什么对不可能预测到的事件常常并不感到意外。

第五部分探讨了如何改进判断并防止出错这一实际问题。如果你主要对如何在实践中减少噪声感兴趣,那么你可以跳过第三部分和第四部分,直接阅读第五部分。我们调查了人们为降低医学、商业、教育、政府治理和其他领域中的噪声所做出的努力。我们介绍了利用“决策卫生”(decision hygiene)减少噪声的几种做法。我们展示了来自不同领域的5个案例研究。在这些领域中,关于噪声的记录已经有很多,人们为了减少噪声也做出了不懈的努力,并且取得了一定的成效。这些案例研究包括不太可靠的医学诊断、绩效评估、司法鉴定、招聘决策以及一般性预测。最后,我们介绍了中介评估法(mediating assessments protocol,MAP)——一种用于评估选项的通用方法,该方法融合了决策卫生在实践中的几种关键做法,目的是让噪声更少,从而得到更可靠的判断。

正常的噪声水平应该是多少呢?第六部分会回答这一问题。正常的噪声水平并不是零,这或许有点违反直觉。在一些领域中,噪声不可能被完全消除;在另外一些领域中,消除噪声的成本太高;还有一些领域中,消除噪声的努力会损害重要的竞争价值。例如,消除噪声的努力可能会影响士气,会让人觉得自己很像机器中的齿轮。当试图用算法解决问题时,人们会提出各种各样的反对意见,我们会对其中一些反对意见做出回应。尽管如此,当前的噪声水平还是令人难以接受。我们敦促私人机构和公共组织进行噪声审查,并以前所未有的严肃态度,付出更多的努力来尽力减少噪声。这样做可以减少很多组织中普遍存在的不公平现象,并降低诸多成本。

怀揣着这一愿景,我们在每一章的结尾都会提出一些简短的建议。你可以采用这些建议,也可以根据你的实际情况加以调整,无论这些问题是涉及健康、安全、教育、金钱、就业、娱乐,还是其他方面。了解因噪声而存在的问题,并试图解决这些问题,是一项需要持续去做的工作,也是一项需要我们共同努力的工作。我们所有人都有机会为这项工作做出贡献。这也正是我们写这本书的初衷。