回顾与总结

正视噪声问题

噪声是我们在做判断时不希望存在的变异,然而噪声实在太多了,本书的核心目标就在于解释为何会如此,以及我们应该如何应对噪声。本书涵盖的内容十分丰富,我们在这里仅从一个宽泛的视角来对书中的核心观点进行简要的回顾和总结。

判断不是计算,也无须遵循精确的规则

需要注意的是,不要把本书中的“判断”一词与“思考”一词混淆。判断是一个相对狭义的概念,指的是以人的大脑为工具的测量。与其他测量方式一样,判断需要为一个对象赋值,不过这个值未必是数字。例如“玛丽的肿瘤可能是良性的”是判断,“国民经济不稳定”“弗雷德是我们新任经理的最佳人选”“这种程度的风险所对应的保费应该是12 000美元”等,这些也都是判断。判断是将各种信息非正式地整合到总体评估中,但判断不是计算,也无须遵循精确的规则。教师可以用判断来对论文进行评分,但不能用判断做多项选择题。

很多人以专业判断为生,每个人都可能在一些很重要的方面受到这些专业判断的影响,我们所说的专业判断者,包括足球教练、心脏病专家、律师、工程师、好莱坞高管和核保员等。专业判断是贯穿本书始终的重点,这不仅是因为它们已经被广泛研究,还因为这些判断的品质会对我们所有人产生巨大影响。此外,我们相信我们所学到的知识也同样适用于生活中其他方面的判断。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

有些判断具有预测性,并且有些预测性判断是可验证的,即我们最终会知道它们是否准确,短期预测大都属于此类,例如药物的疗效、流行病的传播过程以及选举的结果等。但是,有些判断是无法验证的,如长时间跨度的预测和对虚拟问题的回答,对于这些判断,我们只能通过评估产生这些判断的思维过程来评估其品质。此外,还有一些判断并非可预测的,而是可评估的,举例来说,法官的判决或一幅画在有奖竞赛中的排名,就不太容易与其客观的公正判决或这幅画的真实价值进行比较。

然而,令人惊讶的是,无论是否存在真实值,判断者都会表现得像存在真实值一样,他们的思考及行为就像是要瞄准一个看不见的靶心,并且希望不要偏离靶心太多。“见仁见智的判断”一词表明,判断可能存在分歧,但分歧是有限度的。判断的一个重要特征是存在有限的分歧。判断介于计算和独特的个人品位之间,计算意味着不允许存在任何分歧,而个人品位则意味着,除非处在极端情况中,人们完全不期望能够达成一致。

人类判断的错误:偏差和噪声

当一组判断中的大部分错误都指向同一个方向时,我们就认为这组判断出现了偏差,偏差即平均误差。例如,整队射击手连续命中靶子的左下方;公司高管年复一年地对销售额做出过高的估计;公司对本该撤销的失败项目持续进行投资。这些都是偏差。

消除一系列判断中的偏差并不能消除所有误差,消除偏差后仍然残留的误差缺少共性(12)。它们是我们在做判断的过程中不希望存在的分歧,体现了我们将测量工具应用于实际时的不稳定性。这种变异就是噪声。噪声是本该相同的判断中出现的变异。我们用“系统噪声”这一术语来描述组织中具有同质性的专业人士,如急诊医生、量刑法官以及保险公司核保员在做决策时出现的噪声。本书的大部分内容都在讨论系统噪声的问题。

测量偏差和噪声

均方误差(MSE)是科学测量学中已经沿用了近200年的测量准确性的标准。均方误差的主要特征是:它将样本均值作为总体均值的无偏估计,同等对待正误差和负误差,并且不成比例地处理较大的误差,因此,均方误差不能反映判断误差的实际代价——误差的实际代价往往是非对称的。然而,专业决策往往需要做出准确的预测。对于一个即将面临飓风袭击的城市,低估和高估飓风威胁所需付出的代价显然是非对称的,但你不希望这些代价影响气象学家对风暴速度和轨迹的预测。对于此类以追求客观准确性为目的的预测性判断来说,均方误差是合适的判断标准。

偏差和噪声都可以用均方误差来独立测量,而它们都是误差的来源。显然,偏差通常是有害的,减小偏差总是能提高判断的准确性;而噪声同样有害,减少噪声也同样总是能提升判断力。但是从直觉上说,这一事实却不那么容易被大家接受,人们通常希望,即使判断中存在明显偏差,离散度也最好为0。当然,我们最终的目标是同时使偏差和噪声最小化。

一系列可验证的判断中的偏差指的是案例的平均判断与其真实值之间的差异。而对于无法验证的判断,则无法进行这种比较。例如,承保人为特定风险设定的保费,其真实值永远不可知。对于某项特定罪行来说,我们也无法轻易知道公正判决的真实值是什么。在缺乏真实值的情况下,一个最常用、最方便(虽然并非总是正确)的假设是:判断是不偏不倚的,多名法官的平均值就是对真实值的最佳估计。

我们可以通过噪声审查来评估系统中的噪声。在噪声审查过程中,几名专业人员对同一案例(真实的或虚构的)做出独立判断,我们可以在不知道真实值的情况下测量噪声,就像我们从靶子背面看到一堆弹孔的分布图一样。噪声审查可以衡量许多系统中判断的变异性,包括放射科和刑事司法制度,有时还会让人们关注到技能或训练的不足。此外,噪声审查还可以对系统噪声进行量化,例如同一团队中的核保员对风险的评估有所不同的情形。

偏差和噪声哪个问题更大呢?这要依据实际情况而定,答案很可能是噪声。当误差的平均值(偏差)与误差的标准差(噪声)相等时,偏差和噪声对总体误差的贡献相同。如果判断呈正态分布,即标准钟形曲线,那么只有当84%的判断都高于或低于真实值时,偏差和噪声的影响才相等。这其实是很大的偏差,这么大的偏差很容易就能被专业人员检测到。而当偏差小于一个标准差时,噪声就是总误差中更大的错误来源了。

噪声是个问题,远超我们的想象

分歧在某些判断场景中是没有问题的,甚至是有必要的。观点的多样性对于激发创意和产生多种设想必不可少,标新立异的思维对于创新也至关重要。比如,电影评论家多元化的观点是优势而非劣势;交易员之间的分歧促进了市场的繁荣;相互竞争的创业公司之间的战略差异使市场能够优胜劣汰。但是,在我们所讨论的判断问题上,系统噪声永远是一个问题,如果两位医生给你做出了不同的诊断,那么其中至少有一种诊断是错误的。

系统噪声的绝对数量及其造成的破坏程度之大令人震惊,这也正是我们撰写本书的动力所在。两者都远远超出了我们的预期。我们在本书中提及了商业、医学、刑事司法、指纹分析、天气预报、绩效考核和政治等许多领域的案例,并从中得出了结论:哪里有判断,哪里就有噪声,而且其数量之大远超我们的想象。

噪声在误差中的重大作用与人们普遍拥有的一种观念相悖,即“随机误差不重要”,因为他们可以“相互抵消”。然而,这种观念是错误的,如果靶心周围散布着很多弹孔,那么说“平均下来射击手击中了靶心”是毫无意义的。如果一名应聘者的得分高于他的实际水平,而另一名应聘者的得分低于他的实际水平,则可能导致用人单位聘错人。如果一份保单的保费过高,而另一份保单的保费过低,这两种错误对保险公司而言都是代价高昂的:前一种情况可能会使公司丢了生意,后一种情况则会使公司赔钱。

简而言之,如果缺少正当的、导致判断差异性过大的理由,那么判断过程一定存在误差。而且,即使我们无法对判断进行验证以及对误差进行测量,噪声也是有害的。“同罪不同罚”是不公平的,在一个系统中,如果相关人员的专业判断缺乏一致性,那么这个系统就会失去公信力。

水平、模式、情境,噪声的3种类型

系统噪声可分为水平噪声和模式噪声。有些法官通常很严厉,而另一些法官则更宽容;一些股票预测者总是预测牛市,另一些则总是预测熊市;有些医生开的抗生素比其他医生多。水平噪声是不同个体平均判断上的变异性,判断量表的模糊性是水平噪声的来源之一。像“可能”这样的词或“0~6分量表中的4分”这样的数字对不同的人来说含义是不同的。水平噪声是判断系统中的误差的重要来源,也是减少噪声过程中的一个重要干预对象。

系统噪声还包含另一种成分,这种成分通常占比更大。无论判决的平均水平如何,不同的法官对于哪种罪行应受更严厉的刑罚的看法可能有所不同。法官们的不同判决会导致对不同案件的排序不同。我们称这种变异为模式噪声[统计术语为“统计交互作用”(statistical interaction)]。

模式噪声的主要来源是稳定的,如不同法官对同一案件所做出的个体化、特异性的反应。其中一些差异反映了个体(有意识或无意识)遵循的原则或价值观。例如,一位法官对偷盗者可能特别严厉,而对违反交通法规的人则较宽容;另一位法官可能刚好相反。某些潜在的原则或价值观可能非常复杂,而判断者可能对此毫无意识。例如,某位法官可能对年龄较大的偷盗者比较宽容,他自己却完全没有意识到这一点。同时,对特定案例高度个体化的反应也可能是稳定的,比如,某位法官由于觉得被告长得像自己的孩子,从而对被告产生了怜悯之情,并对被告予以宽大处理。这位法官在不同时间里遇到这种情况,他都会如此。

这种稳定的模式噪声反映了法官的独特性:他们对案件的反应与他们独一无二的人格特征一样。人与人之间的细微差异通常很微妙也很有趣,但是,在需要一致性判断的系统中,这种由专业人员做出的判断间的差异是有问题的。在我们所考察的研究中,这种因个体差异而产生的稳定的模式噪声通常是系统噪声的最大来源。

尽管如此,法官对特定案件的不同态度也不完全是稳定的,也就是说模式噪声也包含一个可变成分,我们称之为情境噪声。如果放射科医生在不同的日子里对同一张影像片子做出了不同的诊断,或是指纹鉴定师有时认为两个指纹是匹配的,有时则认为是不匹配的,我们就能在其中检测到情境噪声。正如上述例子所示,如果判断者没能识别出某个案例是他以前处理过的案例,我们很容易在他做判断的过程中测量出情境噪声。另一种证明存在情境噪声的方式是发现与判断无关的背景因素对判断产生了影响。例如,当法官最喜欢的足球队获胜后,他们变得较宽容;医生在下午通常会开出更多的阿片类药物。

判断与噪声的心理机制

判断者的认知缺陷并非预测性判断中存在误差的唯一原因,客观无知往往起着更大的作用。实际上,有些事确实是不可知的,例如,新生的婴儿中,有多少人会在70年后抱上孙子;明年开奖的彩票,其中奖号码是多少。还有一些信息也许是可知的,但判断者并不知道。人们往往会在做出预测性判断的过程中表现得过度自信,低估了他们的客观无知和偏差。

我们预测的准确性是有限的,而且这个限度通常很低,尽管如此,我们还是对自己的判断感到满意。这种令人满意的信心来自内部信号,即当事实和判断匹配成连贯的故事时自发产生的奖励,然而,我们对判断的主观信心未必与其客观准确度有关。

大多数人在得知自己的预测性判断准确度很低甚至不如公式时,都会很惊讶。然而事实上,即使是建立在有限数据上的简单线性模型或在信封背面就能写得下的简单规则,也常常胜过人类的判断,规则和模型的关键优势在于它们没有噪声。正如我们主观体验到的那样,判断是一个微妙而复杂的过程。这样说并非想要表明这种微妙之处大部分是噪声,而是说我们很难想象,盲目地遵守简单的规则都比人类自己做出判断更准确,但这的确是事实。

心理偏差显然是导致系统误差或统计偏差的来源之一,尽管没那么明显,心理偏差也是噪声的来源之一。如果并非所有判断者都共享同样的偏差,或他们产生偏差的程度各不相同,抑或偏差的影响取决于外部环境,那么此时心理偏差就会产生噪声。例如,如果一半的经理在做招聘决策时对女性存在歧视,而另一半经理又偏好录用女性,则整体上不会有偏差,但系统性噪声会导致许多招聘错误。另一个例子是第一印象效应,这是一种心理偏差,但如果证据的呈现顺序是随机的,这种偏差就可能产生情境噪声。

我们将判断过程描述为:非正式地对一系列线索进行整合,并在一个量尺上做出判断的过程。因此,消除系统性噪声需要判断者在线索的使用、给线索赋予权重以及使用量尺上保持一致。即使不考虑情境噪声的随机影响,这些要求也很难满足。

在单一维度的判断中,人们判断的一致性通常很高,比如两个候选人中哪个更具魅力或哪个更勤奋,不同的招聘者往往能在这类评价性问题上达成共识。人们共有的对不同维度进行匹配的直觉过程让人们足够产生相似的判断,如人们将高GPA与超前的阅读能力相匹配。如果一个判断中只有少量线索,并且这些线索基本都指向同一个方向,那么人们也容易在这样的判断上达成一致。

当判断需要对多个彼此冲突的线索赋予一定的权重时,巨大的个体差异就会产生。对于同一位候选人,有些面试官会更重视才华或个人魅力,有些面试官则可能更看重勤奋或抗压能力。当线索不一致并且不能构成连贯的故事时,不同的人在重视哪些线索和忽略哪些线索上必然会表现不同,这就会产生模式噪声。

不易觉察的噪声

噪声不容易被人觉察,也很少被讨论,而且显然比偏差更少受到关注,因此你可能没怎么考虑过它。不过,噪声如此重要,却不容易被人觉察,这本身也是一种非常有趣的现象。

认知偏差以及其他情感或动机对思维的扭曲,常被用来解释糟糕的判断。分析人士用过度自信、锚定效应、损失厌恶、可得性偏差(availability bias)以及其他种类的偏差来解释那些糟糕的决策。基于偏差的解释常常令人满意,因为人类思维渴望因果性解释。每当出现问题时,我们都会去寻找原因,通常情况下我们也确实能够找到原因。在一些情况下,偏差看起来就像是不良决策的成因。

偏差在解释性方面颇具魅力,噪声却缺乏这种魅力。如果试图事后解释为什么某个特定的决定是错误的,那么我们可能很容易发现偏差,但不会发现任何噪声。只有用统计思维来看待世界,我们才会看到噪声,但这种统计思维并非与生俱来,因为我们往往更喜欢因果性的故事。我们的直觉系统缺乏统计思维,这就是噪声比偏差更少受到关注的原因之一。

另一个原因在于,专业人士很少认为自己和同事的判断会有噪声。经过一段时间的培训后,他们通常会自行做出判断。指纹专家、经验丰富的核保员和资深专利审核员几乎不会去想其他同事会与自己的意见不一致,他们更不会去想,其他同事会如何质疑自己的意见。

大多数时候,专业人士会对自己的判断充满信心。他们总以为自己的同事会赞同自己的意见,却从来不会去弄清楚是否的确如此。在大多数领域,人们做出判断后永远不会将其与真实值进行比较,最多是让另一位尊重型专家对其判断进行审查。专业人士之间偶尔才会出现大到令人惊讶的分歧,而且一旦出现这种分歧,他们通常会找到理由来将其视为极端案例。组织程序也倾向于忽略或压制专家之间的分歧,这是可以理解的,毕竟站在组织的立场上,噪声是一种令人尴尬的存在。

决策卫生的6个原则

我们有理由相信,有些人的判断就是比其他人好。最佳判断者具有如下特征:拥有与任务相关的技能、智力以及特定的认知风格——用积极开放性思维来形容这种认知风格最为恰当。毫无疑问,优秀的判断者犯严重错误的情况很少。然而,鉴于导致个体差异的因素众多,即使是最好的判断者,我们也不应该奢望他们能够在复杂的判决任务中达成完美的一致性。背景、个性和经历的千差万别使得我们每个人都与众不同,这也是我们无法避免噪声的原因。

消除偏差是减少误差的一种策略。通常,人们要么在事前控制偏差的影响,要么在事后对偏差进行校正。我们提出第三种方案,它特别适用于团队决策:指定一位决策观察者来识别偏差出现的迹象,从而对偏差进行实时检测(参见附录2)。

对于降低判断中的噪声,我们的主要建议是采取决策卫生策略。我们之所以选择“决策卫生”这个词,是因为减少噪声就像平常的卫生习惯一样,是为了预防未知的敌人。例如,洗手可防止未知病原体进入身体。同理,决策卫生可以防止未知的错误出现。决策卫生与它的名字一样乏味,远不如战胜可预测性偏差那样令人振奋,预防未知损害可能也得不到什么荣誉,但依然值得我们这么做。

组织中的减少噪声的工作也应该从噪声审查开始(参见附录1)。噪声审查的一项重要功能是使组织由衷地认真对待噪声。这将有利于对不同类型的噪声进行评估。

在前文中,我们描述了不同领域中减少噪声工作的成效与局限。现在,我们简单总结一下决策卫生策略的6项原则,描述它们如何解决引发噪声的心理机制并展示它们如何与特定的决策卫生策略之间建立联系。

原则1:判断的目的在于准确性,而不在于个性化表达。这是判断中必须遵循的首要决策卫生策略,它反映了本书对判断一词狭义、具体的定义。我们发现,稳定的模式噪声是系统噪声中很大的组成部分,它是个体差异以及“判断人格”的直接结果,判断人格会导致不同人在面对同一问题时持不同观点。基于这些发现,我们得出一个不受欢迎但又无法忽视的结论——做判断不是表达个性的场景。

需要明确的是,个人的价值观、个性和创造力在思考与决策的许多阶段都是重要的,甚至是必要的,包括目标选择、形成解决问题的新方案以及生成选项。但在对这些选项做出判断时,个性化的表达就成了一种噪声源。如果判断是为了达到准确性,且你希望其他人认同你的判断,那么你就需要换位思考:如果其他称职的判断者处于你的位置,他们会怎么想。

遵循这一原则的一种比较激进的方法是用规则或算法来代替判断。用算法做评估可以保证消除噪声——实际上,它是完全消除噪声的唯一方法。算法已在很多重要领域中得到应用,并且越来越受到重视,但是,在重要决策的最终阶段,算法不太可能取代人类判断——我们认为这是件好事情。但是,适当地使用算法或至少让决策不那么依赖于专业人士的个人喜好,可以改善判断。例如,我们已经看到了,决策指南可以有效地限制法官的自由裁量权、提升医生诊断的一致性,进而减少噪声和提升决策品质。

原则2:使用统计思维,采用外部视角审视个案。当判断者将某个案例视为一系列相似案例中的一例而不是把它看作特例时,我们就说,这个判断者采用了外部视角。这种方法不同于常规思维模式,即只关注当前案例,并将其纳入因果性故事中。当人们基于自身独特的经历来形成对特定事件的独特看法时,其结果就是会产生模式噪声。外部视角可以解决这一问题:具有相同参照系的专业人员会有更少的噪声,此外,外部视角也有助于产生有价值的见解。

外部视角原则倾向于将预测锚定在一群类似案例的统计特征上。它也提示我们,预测应该是适中的——更技术性的术语是回归(参见附录3)。关注到以往结果的广泛分布及其有限的可预测性,有助于决策者调整自己的判断信心。人们不能因为在不可预测的事情上做出了错误的预测而遭受责备,但如果错误是由于他们在预测时过度自信,那么他们就应该受到责备。

原则3:对判断进行结构化,将其分解成几个独立的任务。这一“分而治之”的原则对于解决我们称之为过度一致性的心理机制所产生的影响是很有必要的。过度一致性会使人们曲解或忽略那些与已有结论或刚刚出现的故事不相符的信息。当同一案例的不同方面所产生的印象相互“污染”时,判断在总体上的准确性就会受到影响。比如,如果允许证人之间互相交流,你认为他们提供的证词还有多少价值呢?

人们可以通过将判断问题分解为一系列的小任务来减少过度一致性问题。这项技术与结构化访谈的原理类似。在结构化访谈中,访谈员一次只评估一个特征,即给前一个特征评完分之后,再对下一个特征进行评分。结构化原则对一些医学诊断指南具有启发意义,例如针对新生儿的阿普加评分,该原则也是我们提过的中介评估法的核心。中介评估法将一个复杂的判断分解为多个基于事实的评估,其目的在于保障每个评估都是独立进行的。因此,尽可能将每个评估分配给不同的团队,并尽量减少他们之间的沟通,这样能确保每个评估的独立性。

原则4:抵制不成熟的直觉。我们介绍了完成判断时的内部信号,它赋予了决策者判断的信心。决策者不愿意放弃这种奖赏性的内部信号,这也是他们不愿意使用指南、算法或者其他束手束脚的规则的主要原因。显然,决策者需要对他们的最终决策感到满意,并从直觉的自信中获得回报感,但是他们不应该过早地给予自己这种回报感。通过对信息的权衡和仔细思考而得出的直觉决策远胜于快速判断,因此不必禁用直觉,但直觉应该建立在一定信息的基础上,且应该接受规则的约束与适当的延迟处理。

这一原则启发我们对信息进行排序:不应给做判断的专家呈现他们不需要的以及可能引发偏差的信息,即使这些信息是正确的。例如,在司法科学中,最好不要让检查员知道有关犯罪嫌疑人的其他信息。中介评估法的一个关键要素——控制讨论议程也是如此,一个有效的讨论议程将确保人们分别从不同的方面考虑问题,直到所有方面的评估都完成之后,人们再做出整体判断。

原则5:获取多位判断者的独立判断,再考虑汇总这些判断。很多组织的常规流程违反了独立性原则,尤其是一些会议流程会导致参与者的意见受到他人的影响。由于信息级联和群体极化效应,群体讨论通常会放大噪声。在讨论之前收集参与者的判断,这样一个简单的流程既可以揭示噪声的程度,又有助于以建设性的方式解决分歧。

对所有的独立判断求均值可确保减少系统噪声,但不能减少偏差。单一判断是从所有可能判断的总体中抽取的一个样本,增加样本量可以提高估算的准确性。当判断者具有多样化的技能以及互补的判断模式时,求均值的优势会进一步增强。对一系列充满噪声的判断进行平均,其结果可能比全体一致的判断更为准确。

原则6:用相对判断和相对量表会更好。相对判断的噪声要比绝对判断的噪声小,因为我们在同一量表上对多个对象进行归类的能力是有限的,但是我们对众多对象进行两两比较的能力却更胜一筹。基于比较的判断量表要比需要绝对判断的量表噪声更少,例如,我们可以用每个人都熟悉的案例作为一把案例量表,判断者们只需要确定某起案件在量表上的相对位置即可。

我们刚刚列举的决策卫生原则不仅适用于重复性决策,也适用于单次的重大决策,即我们所谓的单一决策。单一决策中会存在噪声,这似乎与我们的直觉相悖:从定义上来看,如果你仅做一次决策,就没有可以测量的变异,也就是说不应存在噪声,但是噪声的确存在,而且会导致误差。如果我们只看到第一个射击手的射击情况,那么整个队伍的噪声是看不见的,但是当我们看到所有射击手的射击情况后,整个队伍的射击分布就变得清晰了。同样,考量单一决策的最佳方法是将其视为仅进行了一次的重复性决策。这就是决策卫生策略也能改善单一决策的原因。

强制采用决策卫生策略可能会费力不讨好。噪声是隐形的敌人,战胜隐形的敌人也只能取得隐形的胜利,但是,就像保持身体健康需要讲卫生一样,决策卫生至关重要。一位患者的手术成功后,你会相信这是外科医生的妙手回春挽救了患者的生命,但如果外科医生和手术室中的其他人员都没有洗手,这位患者可能已经一命呜呼了。做好杀菌消毒工作可能没有什么值得炫耀的,却会产生实实在在的好处。

噪声是隐形的敌人,我们应该重视这个敌人

当然,与噪声做斗争并不是决策者和组织要考虑的唯一因素。减少噪声的成本可能太高了:一所高中可以要求更多的老师来阅读每篇作文,从而消除评分中的噪声,但是这种额外的工作量是没必要的。实践中不可避免地会有一些噪声产生,这是给予每一个案例个别化考虑的系统必然产生的副产品,它使得人们不像机器的齿轮,并确保了决策者的主观能动性。有些噪声甚至是人们所期待的,前提是它产生的变异有利于系统适应时代的变化,比如噪声反映了社会不断变化的价值观和目标,以及引发了能导致实践或司法变革的讨论。

也许其中最值得重视的是,降噪策略导致了令人无法接受的不良后果。许多有关算法的担忧实际上是被夸大了,但有一些担忧是合理的。即使算法可以成功地避免人类会犯的很多错误,它们也可能会犯人类永远不会犯的愚蠢错误,并因此失去可信度。算法也可能会因为设计不当或训练数据选取不当而产生偏差。另外,算法的模糊性也可能会引起人们的不信任。决策卫生在实践中也有其弊端:如果管理不善,它就会产生决策官僚化的风险,专业人士也可能因为自己的自主权受损而士气低落。

所有这些风险和局限性都应该得到充分考虑。不过,拒绝减少噪声的理由是否合理,取决于你所考虑的减少噪声策略具体是什么。拒绝汇总判断的理由,如成本太高或许不适用于拒绝使用指南。可以肯定的是,一旦减少噪声的成本超过其收益,就不应该再执着于减少噪声了。一旦进行成本收益分析,或许就能找到一个非零的最佳噪声水平。问题在于,在没有进行噪声审查的情况下,人们意识不到判断中包含了多少噪声,在这种情况下讨论减少噪声的难度,只不过是为不想测量噪声而找借口而已。

偏差会导致误差和不公,噪声也是如此,但我们在这方面所做的研究很少。相比于将判断误差归结为因果,当将判断误差归结为随机性因素时,人们对判断误差的容忍度更高,但这并不意味着随机性因素带来的判断错误的危害更小。若想在重大决策上做得更好,我们就应该认真对待减少噪声问题。