已读16%
预计阅读本页时间：-

第2章
系统噪声，给人达成一致的错觉

我们最初接触噪声，并对这个主题产生兴趣，并不是因为遇到了像刑事司法案件那般富有戏剧性的案例。实际上，这次邂逅纯属偶然，缘于一家保险公司，这家公司与我们中的两人所属的咨询公司有合作。我们的研究揭示了营利性组织中存在噪声问题的严重性——组织会因为决策中的噪声损失惨重。我们在保险公司的经历有助于解释为什么噪声问题常常被忽视，以及要想解决这个问题，我们能做些什么。

保险公司的高管们正在权衡减少噪声这项工作是否有必要，即是否需要提升为公司做出重大财务决策的人员之间判断的一致性。虽然每个人都认为需要保持一致，但大家都明白这些判断不可能完全一致，因为它们具有一定的主观性。总之，有些噪声不可避免。

在谈到噪声数量时，大家出现了分歧。高管们怀疑，噪声对他们的公司而言是否真的是一个重大问题。非常值得称赞的是，他们同意通过一个简单的实验来解决这个问题。我们称这个实验为噪声审查。结果让他们感到惊讶。这个案例也有力地证明了噪声问题确实存在。

广告：个人专属 VPN，独立 IP，无限流量，多机房切换，还可以屏蔽广告和恶意软件，每月最低仅 5 美元

抽签会引发噪声

大型保险公司中的许多专业人员都有权做出对公司具有约束力的判断。例如，上述这家保险公司雇用了许多核保员，他们会根据财务风险为投保人提供保费报价，比如为银行提供针对因欺诈或流氓交易造成损失的保险。公司还雇用了许多理赔员来预测未来会产生的索赔费用，并在发生纠纷时与索赔人进行谈判。

保险公司的每个大型分支机构中，都会有数位具备资质的核保员，当有人想知道报价时，任何有空的核保员都可能被指派去做这项工作。实际上，核保员是随机指定的，而报价数额却会对公司产生重大影响。如果保费高，而报价被客户接受，那么对保险公司是有利的，却存在将业务输给竞争对手的风险。低额保费更容易被客户接受，但对保险公司而言却是不利的。也就是说，对于任何风险，都有一个恰到好处的“金发姑娘价格”（Goldilocks Price）⁽²⁾——既不会太高，也不会太低。大多数专业人士判断出的平均价格很可能与这个“金发姑娘价格”相差不大，高于或低于这个价格，保险公司都会付出很大的代价。

理赔员的工作也会影响到保险公司的财务状况。例如，假设有人提交了一份索赔申请，而索赔人是一名在工业事故中失去右手的工人。就像核保员的分配一样，某位理赔员被指派受理该索赔案是因为他恰好有空。该理赔员的职责是收集案件的实情，并向公司提供最终成本的估价。他随后负责与索赔人的代表进行谈判，以确保索赔人获得保单中承诺的利益，同时保险公司也不用支付过多费用。

早期的估价很重要，因为它为理赔员与索赔人在未来的谈判中设定了一个隐性的目标。法律规定，保险公司有义务为每项索赔预留足够的资金。从保险公司的角度来看，这里的“金发姑娘价格”很重要，报价过高或过低都无法确保很好地解决问题：一方面，如果报价过低，索赔人的律师可能会选择诉诸法律；另一方面，过于慷慨可能会使理赔员因自由度过高而同意索赔人的无礼要求。理赔员的判断对公司很重要，对索赔人而言也同样重要。

我们用“抽签”这个词来强调在选择核保员或理赔员时的随机性。正常情况下，保险公司只会为每一起案件分配一位专业人员，我们无法得知如果换成另外一位专业人员，情况会有什么样的不同。

当然，抽签也有好处，不是完全不公平的。进行“好的”（如一些大学的课程）或“坏的”（如美国的征兵工作）资源分配时，人们都能够接受抽签的形式。抽签有它存在的意义，但我们所谈论的判断中的抽签并不分配任何东西，采用这种比喻是想要强调：它们只会产生不确定性。想象一下，假如一家保险公司的核保员是不存在噪声问题的，他们能够设定最佳保费，但一个“抽签装置”介入并修改了实际报价，显然这样的抽签是不合理的。在一个系统中，如果结果取决于随机选择的专业判断者的身份，这非常不合理。

噪声审查，系统噪声无处不在

以类似抽签的方式指派一位法官来审理刑事案件或选择一位射击手代表一支队伍出战，都会产生差异性，但这种差异性是隐而未见的。就像审查美国联邦法官在量刑方面的差异性那样，噪声审查是揭示噪声的一种方法，在这样的审查中，多人对同一起案件进行评估，于是他们评估中的差异性就可以显现出来。

核保员和理赔员的判断尤其适用于这种审查，因为他们都是根据书面材料做判断的。在噪声审查开始之前，保险公司高管向每个小组（核保员和理赔员）详细描述了5个代表性案例，随后要求每一组的成员对两三个案例进行独立评估。为了检查他们判断之间的差异性，研究人员事先没有告知这些员工该研究的目的。

在继续阅读之前，不妨想想，你会如何回答以下问题：在一家经营状况良好的保险公司中，如果你随机选择了两位有资质的核保员或理赔员，你预测他们对同一案件的估价会有多大差异？具体而言，两个估价之间的差异占他们估价平均值的百分比是多少？

在随后的几年中，我们让保险公司的众多高管们也回答这个问题，并获得了各界人士对此的估值。令人惊讶的是：有一个答案显然比其他所有答案都有人气，大多数高管猜测的差异值为10%或更少。我们调查了828位来自不同行业的CEO和高管，询问他们希望在类似的专家判断中发现多少差异，最常见答案的中位数也是10%（排名第二常见的答案是15%）。10%的差异意味着，如果两位核保员中的一位将保费设定为9500美元，那么另一位可能报出10 500美元的保费。虽然这一差异不算微不足道，但它仍在组织能够容忍的差异范围内。

然而，我们的噪声审查发现的差异更大。根据我们的计算，核保员的中位数差异为55%，大约是大多数人（包括公司高管）估计值的5倍多。这一结果意味着，当一位核保员将保费定为9500美元时，另一位核保员很可能不是将保费定为10 500美元，而是定为16 700美元。另外，理赔员的中位数差异为43%。需要注意的是，我们强调的这些结果是中位数，事实上，在一半的案件中，两个判断之间的差异甚至更大。

当我们将噪声审查结果提交给高管们时，他们很快意识到巨大的噪声会让公司付出高昂的代价。一位高管估计，保险公司每年在承保方面的噪声成本是数亿美元，包括报价过高造成的业务损失和低价合同造成的收益损失。

没有人能准确地说出一项决策中到底存在多少错误或多少偏差，因为没有人能确切地知道每一种情况下的“金发姑娘价格”。但是，要想测量射击点的分散程度，并意识到差异性是一个问题，我们并不需要知道靶心在哪里。数据显示，要求客户支付的价格在一定程度上取决于被抽中的是哪位核保员。至少可以说，如果未经客户同意就做出这样的抽签式指派，客户也不会满意。更为普遍的是，与组织打交道的人希望系统能够提供可靠的一致性判断。总之，他们不希望自己的系统中存在噪声。

不必要的变异性与有利的多样性

系统噪声的一个特点是，它是不必要的，而我们想要强调的是：判断中的变异性并非总是不必要的。

让我们想想人们的偏好或品位问题。如果有10位影评人观看同一部电影，或有10位品酒师评价同一款酒，又或有10位读者阅读同一部小说，我们并不期望他们给出完全相同的评价。毕竟，人各有所好，这完全在意料之中，因为没有人愿意生活在一个所有人的好恶都完全相同的世界中。然而，如果我们的个人品位被误认为是专业判断，那么品位多样性就可能导致错误。如果一位电影制片人决定推进一个“小众”的项目（比如，转盘电话的兴衰），其原因仅仅是他个人喜欢这个剧本，而不管其他人对这个项目的看法，那么就可能会犯下大错。

在最优判断会得到奖励的竞争环境下，人们也会期待和欢迎判断中的变异性。当几家公司或同一组织中的几个团队竞相为同一个客户问题制订创新性解决方案时，我们就不希望他们采用相同的方法；当多个研究团队试图攻克同一个科学问题时，情况也是如此，例如在研制疫苗时，我们希望各研究团队能从不同的角度去看待问题。即使是预测者，有时也会表现得像个竞争者一样。如果预测者能从别人没有想到的视角，正确地预测到经济衰退的可能性，那么他肯定会一举成名，而墨守成规、从不偏离一致性的人则将碌碌无为。在这种情况下，想法和判断的变异性同样有存在的必要，因为变异是第一步。在随后的阶段，这些判断的结果会相互竞争，最优判断会获得胜利。市场犹如自然界，没有变异，选择就不会起作用。

品位和竞争引发了有趣的判断问题，但我们的讨论重点是判断中存在的不必要的变异性。系统噪声是系统层面的问题，系统是组织，不是市场。当交易员对同一只股票的价值做出不同的评估时，其中一些人会赚钱，另一些人则不会，可以说正是分歧造就了市场。但是，如果随机选择其中一名交易员来代表他任职的公司进行评估，我们还发现他的同事做出了非常不同的评估，那么该公司就存在系统噪声，这就是一个大问题。

当我们向一家资产管理公司的高级经理提出我们的发现，并敦促他们进行噪声审查时，这个问题就被很好地说明了。他们要求公司中42名经验丰富的投资经理估计一只股票的公允价格（当股价达到该价格时，投资经理不会进行买卖交易）。他们只是根据一页纸的业务描述进行分析，其中的数据包括过去3年的简化损益表、资产负债表、现金流量表以及对未来2年的预测。用我们在保险公司案例中使用过的噪声审查方法测量噪声水平，得到的噪声中位数为41%。同一家公司的投资经理在采用相同估值方法的情况下出现如此大的差异，这可不是一个好消息。

正如资产管理公司、刑事司法制度以及前面讨论的保险公司的案例一样：只要判断者是从一群具有同等资历的人中随机挑选出来的，噪声就是一个必然存在的问题。系统噪声困扰着许多组织和机构：比如，你去医院接受哪位医生的治疗、哪位法官在法庭上审理你的案件、哪位专利审查员审查你的申请、哪位客户服务代表听取你的投诉等。在这些由不同人做出的判断中，不必要的变异性会引发严重问题，包括金钱损失和广泛存在的不公平现象。

关于判断中不必要的变异性，一个常见的误区是认为它无关紧要，因为通常来说，随机错误是可以相互抵消的。当然，在关于同一案件的判断中，正负误差会趋于相互抵消，我们将详细讨论如何利用这一特性来减少噪声。但存在噪声的系统并非对同一案例做出了多次判断，而是对不同的案例做出了有“噪声”的判断。如果保险公司对一份保单的理赔金额估价过高，而对另一份保单估价过低，从平均值而言，两次估价看起来可能是适当的，但实际上保险公司却犯下了两次代价高昂的错误。如果两名罪犯都应该被判处5年有期徒刑，却分别被判处了3年和7年有期徒刑，那么尽管平均值是5年，但事实上正义并没有得到伸张。因此可以看出，在充满噪声的系统中，错误不会相互抵消，只会累加。

达成一致的错觉

几十年前已有大量文献记录了专业判断中的噪声，因为我们了解这些文献，所以对保险公司的噪声审查结果并不惊讶。然而，令我们惊讶的是高管们在听到报告结果时的反应：公司中没有人预料到我们会观察到那么多的噪声数量，没有人质疑审查的有效性，也没有人声称观察到的噪声数量是可接受的。噪声问题及其导致的巨大成本对该组织来说似乎是一个新问题。噪声就像地下室漏水，它之所以能被容忍，不是因为人们认为它是可接受的，而是因为它一直未被发现。

这怎么可能呢？同一职位、同一办公室的专业人员之间怎么会有如此大的差异而不被察觉？高管们知道这对公司的业绩和声誉是一个重大威胁，他们怎么会没有注意到这一点呢？我们发现，组织经常无法识别系统噪声问题，组织对噪声的普遍无视与它的普遍存在一样有趣。噪声审查表明，受人尊敬的专业人员以及雇用他们的组织存在一种一致性错觉，事实上，他们在日常的专业判断中常常存在分歧。

想要理解一致性错觉是如何产生的，你可以把自己想象成一位核保员：你有5年以上工作经验，你知道自己在同事中享有较高声誉，并且你也尊重和喜欢你的同事。你对自己的工作能力很有信心。在仔细分析了一家金融公司所面临的复杂风险后，你给出了结论，认为将保费设定为200 000美元比较合适。这个问题虽然很复杂，但与你每天要解决的其他问题没有太大的区别。

现在想象一下，你被告知你的同事也拿到了同样的资料，并针对同样的风险进行了估价。然而，他们中至少有一半人设定的保费要么高于255 000美元，要么低于145 000美元，你会相信吗？这种想法的确很难让人接受。我们怀疑，那些听说过噪声审查并接受其有效性的核保员很难真正相信这一结论适用于他们自己。

多数时候，我们大多数人都有一个根深蒂固的信念，即这个世界就是它看起来的样子。当然，也很容易相信：“其他人对世界的看法与我差不多”。“其他人对世界的看法与我差不多”这样的信念也被称为“天真的现实主义”，它对于我们与他人共有的现实感而言至关重要，而且我们很少质疑这些信念。我们在任何时候都对周围的世界持有一种单一的解释，通常而言，我们很少会投入精力来寻找其他可能的解释。在我们看来，一种解释就足够了，我们将其视为真实的经验。人们通常不会想到用其他方式来看待自己所看到的东西。

就专业判断而言，相信他人也像我们一样看待世界的信念每天都在以多种方式被强化。首先，我们与同事使用同一种语言，遵循着同一套规则来考虑决策中的重要因素。我们也有一些可靠的经验，可以就违反这些规则的荒谬判断与他人达成一致。我们把与同事之间偶尔出现的分歧看作对方的判断失误，却很难意识到，我们一致认定的规则是含糊不清的。这些规则虽然足以消除某些可能性，但并未明确规定可对特定案例做出的积极回应。我们可以与同事愉快地相处，根本不会注意到他们实际上并不像我们那样看待世界。

我们采访的一位核保员描述了他成为自己所在部门“老手”的经历：“当我还是新人时，75%的案件都是与我的主管一起讨论的，没过几年，我就不需要再这样做了。我现在被视为专家，久而久之，我对自己的判断越来越有信心。”像大多数人一样，这位核保员主要通过不断实践来建立对自己判断的信心。

这个过程的心理学机制已被大众所熟知。信心来自主观的判断经验。个体做出这些判断越来越熟练、越来越轻松，这其中的部分原因在于，这些判断与过去经历过的判断类似。随着时间的推移，这位核保员学会了与过去的自己达成一致，他对自己的判断的信心也随之增强。他的叙述并没有表明，在最初的学徒阶段之后，他已经学会了与他人达成一致，已经知道了自己的观点与别人的观点能达到多大程度的一致，或是曾经尝试过防止他的做法偏离同事的做法。

对于保险公司来说，一致性错觉只有通过噪声审查才能被戳破。领导层为何一直没有意识到噪声问题？这里有几个可能的因素，但在许多情况下起最大作用的是对分歧的不适感。大多数组织喜欢共识与和谐，不喜欢异议和冲突。现有的程序似乎是特意设计的，用来将分歧出现的频率最小化，以及在发生分歧时予以消除。

我们可以用明尼苏达大学心理学教授、杰出的成绩表现预测研究者内森·昆塞尔（Nathan Kuncel）给我们分享的故事来说明这个问题。昆塞尔正在帮助一所学校的招生办公室评估其决策过程。首先，一位评阅人阅读了一份申请文件并进行评分，然后将其连同评分一起交给了第二位评阅人，后者也对其进行评分。昆塞尔建议最好隐去第一位评阅人的评分，以免影响第二位评阅人的判断。学校的答复是：“我们以前就是这样做的，却导致了很多分歧，所以我们才改用了现在的方式。”要知道，这所学校并不是唯一一家认为避免冲突与做出正确决定至少同等重要的机构。

考虑一下许多公司采用的另一种机制：对失败的判断进行事后总结。作为一种学习机制，事后总结是有用的，但是如果真的犯了错误，比如某项判断严重偏离了专业规范，那么对该错误进行讨论就没有意义了。专家们很容易得出这样的结论：失败的判断与共识相去甚远。他们也可能将其作为一种罕见的例外情况记录下来。错误的判断比正确的判断更容易被识别。在做出广泛可接受的判断时，指出不合格的同事犯的严重错误并排挤他们，对专业人士了解自己与他人的分歧程度并没有什么帮助。相反，对错误判断的简单共识甚至可能会强化一致性错觉。这样，人们永远也不会认识到“系统噪声无处不在”的事实。

我们希望你能够认同我们的观点，认识到系统噪声是一个严重的问题，它是普遍存在的。判断天生是非制式的，所以噪声的出现也是自然而然的。然而，正如我们将在整本书中看到的，当组织认真审视和看待噪声时，观察到的噪声数量几乎总是令人震惊。我们的结论很简单：哪里有判断，哪里就有噪声，而且它比你想象的还要多。

请支持我们，让我们可以支付服务器费用。
使用微信支付打赏