第20页 | 噪声-丹尼尔·卡尼曼 & 奥利维耶·西博尼 & 卡斯·R.桑斯坦

同步阅读进度，多语言翻译，过滤屏幕蓝光，评论分享，更多完整功能，更好读书体验，试试阅读 ‧ 电子书库

第4章
什么是判断

本书论述的是一般意义上的专业判断，我们假设如果做判断的人有足够的能力，就能做出准确的判断。然而，判断这一概念本身包含着一个你不得不承认的事实：你永远无法确定一个判断是不是准确。

请思考“判断问题”和“主观判断”这两个短语的差别。我们认为“太阳明天会升起”或“NaCl是氯化钠的化学式”这样的陈述并非判断，因为任何理性的人都会完全同意上述观点。判断问题在于其结果存在不确定性，我们承认理性或有能力的人在某一问题上是可能存在分歧的。

然而，分歧需要有一定的限度。事实上，“判断”这个词主要用于人们能够达成一致意见的场合。判断问题不同于品位或意见，在后两种情况下，彼此之间的差异是完全能被接受的。对于那些对噪声审查感到震惊的保险公司高管来说，理赔员在“披头士乐队和滚石乐队哪个更好”，或是“鲑鱼和金枪鱼哪个更好”之类问题上存在的分歧，并不会让人觉得不妥。

包括专业判断在内的判断介于两者之间：一端是事实或计算问题，另一端是品位或意见问题。因此，不同主体的判断必然存在一定程度的分歧。

到底多大的分歧是可以被接受的？这本身就是一个判断问题，而且取决于问题的难度。人们很容易对一个荒诞不经的判断达成一致。比如，在一起普通诈骗案中，法官们会一致认同：判罚款1美元或判无期徒刑都是不合理的；在葡萄酒比赛中，评委们对哪种葡萄酒应该获奖可能会分歧很大，但对于哪些葡萄酒应该被排除在获奖的门槛之外却往往能达成一致。

判断的经验

在进一步讨论判断经验之前，我们邀请你自己先做一个判断，完成这项练习有利于你理解本章的内容。

设想你是一个团队里的成员，负责评估一家中等规模的地区性金融公司的CEO候选人，该公司正面临着日益激烈的竞争。你需要评估以下候选人在工作两年后获得“成功”的可能性。成功的定义很简单，就是候选人在两年任期结束时，仍能保住CEO的职位。用0（不可能）到100（必然）范围内的数字来表示概率。

迈克尔·甘巴迪（Michael Gambardi）今年37岁。12年前从哈佛商学院毕业以来，已经任职过几家公司。早期，他是两家初创公司的创始人和投资人，但由于没有得到足够的资金支持而宣告失败。随后，他加入一家大型保险公司，并迅速晋升为欧洲地区的首席运营官。在该职位上，他发起并实施了一项有助于及时解决索赔问题的重要改进措施。同事和下属都认为他有效率，但也霸道、粗暴，在他的任期内，高管的离职率很高。同事和下属也认可他的正直以及愿意为失败承担责任。在最近的两年里，他一直担任一家中型金融公司的CEO，这家公司最初面临倒闭的风险，但他成功使公司转危为安。人们认为他是成功的，尽管与他个人合作很难。目前，他表示有兴趣换个工作。几年前面试过他的人力资源专家在创造力和精力两个方面给了他高分，但也表示他很傲慢，有时甚至是专横的。

让我们简单回顾一下已知信息，甘巴迪是一家地区性金融公司CEO的候选人，该公司已经取得了一定的成就，但也面临着日益激烈的竞争。你需要回答：如果甘巴迪被录用，两年后仍在职的可能性有多大？请在继续阅读后面的内容之前，给出一个0～100的具体数字。如有必要，你也可以重新阅读上文的描述。

如果你认真思考这个题目，可能会发现自己很难做出判断。这里有大量的信息，但很多信息看起来并不一致，你必须努力构建一个帮助自己做决策的前后一致的印象。在建构这种印象时，你会专注于一些看起来非常重要的细节，但同时也可能忽略了其他细节。如果要求你解释下自己给出的数字，你可能会提到一些主要的事实，但这些又不足以全面地解释你的判断。

上述思维过程揭示了我们在“判断”过程中的几个心理特征。

·　首先，在前文所提供的线索（这些可能只是你需要了解的一部分信息）中，你对一些信息的关注度可能会高于对其他信息的关注度，并且你可能完全没有意识到这一点。你有没有意识到“甘巴迪”是一个意大利姓氏？你记得他是从哪所学校毕业的吗？这些设置是为了让你信息过载，从而让你无法回忆起该案例的所有细节。而且，你回忆起来的内容很有可能和其他读者能够回忆起来的内容不同。“选择性注意”（selective attention）和“选择性回忆”（selective recall）是人与人之间判断差异性的源头之一。

·　其次，你随意整合了所有线索，形成了一个关于甘巴迪的整体印象。这里的关键词是“随意”，也就是“非正式”，你并没有制订一个详细的计划来回答这一问题。在没有完全意识到的情况下，你的大脑建构了一个有关甘巴迪的优点、弱点以及他有可能面临的挑战的整体印象。这一“非正式”的思考能够让你快速做出判断，但它也有可能产生差异性：一个正式的过程，例如增加一列数字，能够确保获得相对一致的结果，但在非正式的心理运作过程中，噪声难以避免。

·　最后，你将整体印象转换成一个用于衡量成功概率的数字。将整体印象与0～100中的某个具体数字对应起来是一个了不起的过程，我们在第14章会对此再次进行讨论。同样，你并不能确切地知道这么做的原因。比如，为什么你选择65，而不是61或69？很有可能的是，它只是在某个时间点，你脑海中忽然就跳出来的一个数字。你确认一下这个数字是否合适。如果你觉得不合适，大脑中则会跳出另一个数字。这一过程也会导致人与人之间的差异性。

既然复杂判断过程中的这三个步骤都会产生差异性，那么在回答有关甘巴迪的问题时存在噪声也就不奇怪了。如果你找几个朋友来阅读上面的案例，你会发现，你们对他成功的概率的评估也会有很大差异。我们让115名MBA学生来对之做判断，他们对甘巴迪能成功的概率的评估在10～95之间，这意味着非常大的噪声。

你可能会发现，秒表实验和甘巴迪问题体现的是两类噪声：秒表实验中产生的差异性是单一判断者的噪声；而甘巴迪案例中，判断的差异性是不同判断者之间的噪声。从测量学的角度而言，第一个问题反映的是“个体内的信度”（within-person reliability），第二个问题反映的是“个体间的信度”（between-person reliability）。

判断的目的：只是响应“做出判断”的内部信号

你对甘巴迪问题的回答是一种预测性判断——关于这一概念，我们在前文中已经定义过，然而，它在一些很重要的方面不同于其他预测性判断，如曼谷明天的最高气温、今晚足球赛的结果或下届总统大选的结果。如果在这些问题上你不同意朋友的判断，你会在某个时间点知道谁是对的。但是，如果在甘巴迪日后表现的问题上你和朋友之间存在分歧，时间也无法告诉你谁是对的，原因很简单：甘巴迪根本不存在。

即使要评估的是一个真实的人，并且我们知道结果，我们也无法证实或证伪一个单一的概率判断（除非概率是0或1）。结果并不能表明“事前概率”（ex ante probability）是多少。如果一个被认为有90%的可能性会发生的事件并未真正发生，也并不能说明概率判断是不好的，毕竟，即使某个结果只有10%的可能性会发生，它也有可能真正发生。基于如下两个不同的原因，甘巴迪案例就是一个无法验证的预测性判断：甘巴迪是一个虚构的人物；关于该人物的判断结果是概率性的。

很多专业判断都是无法验证的。除非出现严重的错误，核保员可能永远无法知道某一特定保单的报价是过高还是过低。其他一些预测因为是有条件的，所以也无法验证。“如果我们开战，我们将被击溃”是一个重要预测，但它很可能不能验证。还有一种情况是：预测的时间跨度太大，以至于预测者无法验证结果，例如关于21世纪末全球平均气温的预测。

上述甘巴迪问题无法被验证的特征会影响你的判断吗？例如，你是否质疑甘巴迪是真实人物？你是否会在意下文能否告知你答案？你是否想过，即使告知你答案，你也无法解决当前所面临的问题？你可能没有想过这些问题，因为当你回答问题的时候，上述这些因素似乎无关紧要。

能否验证并不会改变你的判断经验。在一定程度上，当一个问题的答案很快就被揭晓时，你可能会更加积极地思考，因为害怕出错，所以你的注意力更加集中。相反，你可能会拒绝对一个荒谬的假设性问题做太多思考，比如，如果甘巴迪有三条腿、能飞，他会是一个更好的CEO吗？总体而言，你会用解决现实问题的方式去解决一个假设性问题。这种相似性对心理学研究很重要，因为很多研究使用的都是这种假设性问题。

既然没有结果，你也不会去问是否有结果，那么按理说，你不会尽可能去减少判断与结果之间的错误，但你仍试图去做出正确的判断，给出一个你有足够信心的数字。当然，你对自己的答案并没有十足的把握。你能意识到一些不确定性，并且正如我们所看到的那样，有可能存在一些超出你原本认知范畴的不确定性。但在某个时间点上，你决定不再进一步思考，而是给出最终答案。

是什么让你觉得自己做出了正确的判断？我们将这种感觉称为“做出判断的内部信号”（internal signal of judgment completion），这种内部信号与任何外部信息都无关。

如果你的答案与外部证据相契合，那么你就会觉得自己是对的。0或100这两个数字无法给你契合感：这两个数字所隐含的信心与现有的混乱、模棱两可、相互矛盾的证据是不匹配的。但是，不管你给出的是哪个数字，它都能够带给你所需要的一致感。正如你之前的经历告诉你的那样，判断的目标就是达到一致性的解决方案。

内部信号的本质特征在于：一致感是判断经验的一部分。它并不完全取决于真正的结果。因此，内部信号对于不可验证的判断与对于真实的、可验证的判断一样可用。这样就可以解释，为什么我们对于像甘巴迪这样的虚假人物做出判断的经验，就像是在真实世界中做判断。

评估判断的两种方法：结果和过程

能否被验证并不会改变判断的过程，但会改变事后对判断的评估。

结果可验证的判断可以由一个客观的观察者，根据一个简单的误差测量方式，即通过判断与结果之间的差异进行评定。如果天气预报员说今天的最高气温会达到21摄氏度，而事实是18摄氏度，那么我们可以说预报员犯了一个正3度的错误。显然，这种方法不适用于类似甘巴迪问题中的非验证性判断，因为这种判断没有真正的结果。那么，我们如何去界定一个判断的好坏呢？

答案是还有另一种评估判断的方法，这种方法既适用于可验证的判断，也适用于不可验证的判断，而且其核心在于评估判断的过程。当我们在说好或不好的判断时，我们要么指的是判断的输出，比如甘巴迪的案例中你给出的数值；要么指的是判断的过程，也就是你是如何得出这个数值的。

评估判断过程的一种方法是，观察这一过程在应用于大量案例时的表现。以一个政治分析师为例，他在地方选举中预测了大量候选人的获胜可能性。他宣称，这些候选人中的100人有70%的可能性获胜。如果这100人中最终有70人当选，我们就会认为该政治分析师的预测很准确。虽然单个概率判断无法用正确或错误来评价，但其整体是可以被验证的。同样，通过审查大量案例的统计结果，我们可以更好地确定是否存在针对某一特定群体的偏见。

关于判断过程的另一个问题是，它是否符合逻辑或概率理论。大量关于判断中认知偏差的研究都在分析这个问题。

关注判断过程而不是结果，我们就可以对无法验证的判断进行评估，例如对虚构问题的判断或时间跨度很长问题的预测。虽然无法将其与已知的结果进行比较，但我们仍然可以评估这些判断是否正确。当我们将重心放在提升判断品质，而不仅仅是评估判断的好坏时，我们也会将注意力放在判断过程上。我们在本书中推荐的所有减少偏差和噪声的方法，都是为了实现这样的判断过程：能够在同类案例中从整体上最大限度地减少误差。

我们比较了两种评估判断品质的方法：一种是比较判断的结果，另一种是比较判断过程的品质。需要注意的是，对于可验证的判断，如果在单个案例中使用这两种评估方法，可能会得出不同的结论。一名熟练、谨慎的预测者在使用最好的工具和技巧对季度通胀进行预测时，也经常会出错。而在关于单个季度的预测中，即使是让黑猩猩掷骰子，也有可能给出准确的“答案”。

研究决策的学者为解决这一问题提出了清晰的建议：关注过程，而不是单个案例的结果。然而，这并非现实生活中的惯常做法。专家们也经常评估自己的判断与可验证结果之间的一致程度，如果你问他们，他们判断的目标是什么，他们会说：尽可能地与结果一致。

总而言之，在可验证的判断中，人们通常声称，他们判断的目标是尽可能使自己的预判与结果一致。而事实上，无论是可验证的判断还是不可验证的判断，他们实际想要获得的是做出判断的内部信号，这种信号源自事实与判断之间的一致性。其实，他们应该追求的目标是：努力实现能够对一系列类似案件做出最佳判断的过程。

评估性判断vs预测性判断

到目前为止，本章主要集中讨论的是预测性判断的工作，随后讨论的也主要是这类工作。然而，在第1章中讨论的弗兰克尔法官以及美国联邦法官量刑中的噪声，考察的则是另一种类型的判断。给罪犯判重罪不是预测，而是“评估性判断”（evaluative judgment），目的在于使犯罪严重程度与刑期之间相匹配。葡萄酒比赛的评委和餐厅评论家做出的是评估性判断。对论文进行评分的教授、滑冰比赛的评委以及对科研项目进行评估以决定是否给予资助的委员会做出的判断也都是评估性判断。

在多选项决策中对不同选项进行权衡也是一种评估性判断。类似的例子包括：经理们在一系列候选人中进行选择，管理团队在不同策略之间进行选择，以及总统们选择如何应对非洲的埃博拉疫情。可以确定的是，所有这些决策有赖于预测性判断来提供信息。例如，某位候选人第一年的表现如何；股票市场对某项战略举措的反响如何；如果放任不管，传染病会以多快的速度传播。然而，最终的决策过程需要在每个选项的优势和劣势之间进行权衡，而这种权衡是通过评估性判断实现的。

就像预测性判断，评估性判断也会出现一定范围内的不一致性。没有一位称职的美国联邦法官会说：“这是我最喜欢的判决，我根本不在乎我的同事是否有其他看法。”从一系列策略中做出选择的决策者会有这样的预期：如果同事或其他人获得了相同的信息且具有相同目标，他们就会赞同自己的选择，至少不会偏离太远。评估性判断在一定程度上依赖于判断者的价值观和偏好，而不仅仅是个人品位或意见的问题。

可见，预测性判断和评估性判断的边界比较模糊，做出判断的人往往没有意识到二者间的差异。做出判决的法官和给论文评分的教授会努力思考，并力图找到“正确”答案。他们对自己的判断和做出判断的理由很有信心，在做出预测性判断（如：这款新产品销量如何）和评估性判断（如：我的助手今年表现如何）时，专家们感受相同、行为相同，当然也会以相同的方式阐述自己做出判断的理由。

“任意残酷行为”，噪声的最大问题

在预测性判断中存在噪声，则意味着哪里出错了。举个例子，如果两名医生在诊断上有分歧，或两名预测员对下一季度的销售额持不同意见，那么他们之中至少有一个人是错的。原因可能是其中一个人缺乏技能，也可能是存在其他噪声。不管是什么原因，错误的判断可能会给依赖诊断与预测行事的人带来严重的后果。

在评估性判断中存在噪声也会有问题，但原因不同。在司法系统中，如果法官是可以互换或随机分配的，关于同一案件的巨大分歧会违背人们对司法公正性和一致性的期望。如果对同一被告的判决差异很大，那么我们就是在做弗兰克尔法官所谴责的那种残酷专横之事。甚至那些信奉刑罚个别化的法官以及对抢劫犯的判决存有异议的法官也会认可：如果不同判决之间的差异太大，大到就像抽签一样，那就是有问题的。这一问题在其他场景中也存在，只是戏剧性没那么强：不同的教授对同一篇论文给出的评分差异巨大；不同的机构对同一家餐馆给出了不同的食品安全评分；不同的评委对同一位滑冰选手打出不同的分数。再比如，某人因患有抑郁症而获得了残障人士享有的社会保障，而另一个状况相同的人则什么都没有得到。

即使不公平不是一个特别需要关注的问题，系统噪声也会带来另一个问题。受评估性判断影响的人期待这些判断反映的是系统的价值观，而不是个别法官的价值观。设想一下：一个客户抱怨笔记本电脑有缺陷，并得到了全额退款，而另一个客户仅仅收到道歉；一位在公司工作了5年的员工要求升职并获批准，而另一位绩效相同的员工则被婉拒……这些都是很严重的问题。这样看来，系统噪声就是不一致，而不一致会损害系统的可信度。

噪声是可以测量的

只需对同一问题进行多次判断，我们就可以测量噪声，而且我们并不需要知道这一问题的真实值。正如引言中提到的射击的故事，当我们隐去靶子时，我们是看不见靶心的，但是可以看到子弹落点的分布情况。只要我们知道所有的射击手都是瞄准靶心的，那我们就可以测量噪声，也就是进行噪声审查。如果我们要求所有的预测者预测下个季度的销售额，预测的分散程度就是噪声。

偏差和噪声之间的这一区别对于改善判断品质非常关键。在我们无法验证判断是否正确的前提下，宣称可以改进判断听起来是自相矛盾的，但我们的确可以，因为只需从测量噪声开始。

无论判断的目标是获得精确的结果，还是在不同价值之间进行复杂的权衡，我们都不希望噪声存在。不过，我们通常可以对它进行测量。正如我们将会在第五部分中讨论的那样，只要可以测量噪声，我们就可以减少它。

请支持我们，让我们可以支付服务器费用。
使用微信支付打赏

下载 · 书页 · 阅读 ‧ 电子书库

第20页 | 噪声 | 阅读 ‧ 电子书库