第7章
情境噪声,无时无刻不在影响着我们的判断

想象一名职业篮球运动员正在准备罚球的场景:他站在罚球线上,全神贯注地准备投篮。这是他练习过无数次的一系列动作,他能投中吗?我们无法预知结果。

在NBA的比赛中,球员们通常能够4罚3中。显然,一些球员比其他球员表现得更好,但没有人能做到百发百中(3)。虽然篮筐一直都是距离地面3.05米,与罚球线的垂直距离一直是4.6米,篮球也一直都是重624克,精确地重复能够得分的一系列肢体动作却并非易事。变异不仅存在于球员之间,也存在于球员自身,这与我们推测的情况一致。罚球就像抽签,虽然库里比奥尼尔投中的概率更高,但依然像是在抽签。

这种变异来自何处?我们知道,很多因素都会影响球员的罚球命中率,比如长时间比赛的疲劳、比分接近时的心理压力、主场的欢呼声、对方球迷的嘘声。如果像库里或纳什这样的球员没投中,那么我们会做出如上的解释,但事实上,我们不太可能知道这些因素到底起了什么作用。因此可以说,球员表现中的变异性就是一种噪声。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

第二次抽签

在罚球或人类的其他生理过程中存在变异性,这不足为奇。我们习惯了身体里的变异性,比如我们的心率、血压、下意识的反应、音调、手的颤抖等在不同时间都是不同的。无论我们多么努力地想要写下相同的签名,但每一张支票上的签名仍略有不同。

想要观察人类思维上的变异性尤其不易。当然,即使没有新的信息,我们也都有改变主意的经历,比如,前一天晚上令我们捧腹大笑的电影,此时看起来就可能平庸无奇,很容易淡忘;前一天受到严厉审判的那个人,现在看来应该得到宽恕;一个我们曾经不喜欢或不理解的观点,现在觉得很有道理。但是,正如这些例子所表明的,我们通常会将这种改变与相对没那么重要且非常主观的事情联系起来。

在现实世界中,我们也会在缺少有说服力的理由时改变主意,即使是对判断持高度审慎态度的专业人士也是如此。例如,同一位医生先后两次对同一病例做出的诊断常常会有显著的不同(见第22章)。在美国的一个大型葡萄酒比赛中,专家先后两次品尝了同一种葡萄酒,然而他们给出相同评分的可能性也只有18%,而且通常是对最差的酒打出的。仅仅相隔几个星期,指纹鉴定专家先后两次检查同一枚指纹时,也常常会得出不同的结论(见第20章)。经验丰富的软件顾问会在两种不同的情况下对同一任务的完成时间做出明显不同的估计。简而言之,篮球运动员不可能在两次投篮时采用完全相同的姿势,我们也并不总能在两种情境中对同一事实做出相同的判断。

至此,我们描述了像抽签一样“选择”核保员、法官或医生时所产生的系统噪声。情境噪声则类似于第二次抽签,这次抽签“选择”了专家做出判断的时机、他们的心情、他们以前是否遇到过类似案件,以及情境中的无数其他因素。第二次抽签往往比第一次抽签更抽象。如果在第一次抽签中“选择”了不同的核保员,我们是容易看到“选择”的结果,但要想了解该核保员“实际反应”的其他可能性,则有赖于抽象的反事实思考。我们只知道这一判断是从一系列可能的判断中挑选出来的,而情境噪声是这一系列不可见的可能性产生的变异。

测量情境噪声

测量情境噪声并不容易,因此一旦检测到它的存在,人们会感到惊讶不已。一旦人们形成了一个经过审慎思考的专业意见,他们就会找理由支持该意见。如果有人要求他们对自己的判断做出解释,他们就会以自认为具有说服力的论据来捍卫这一判断。如果他们再次遇到同样的问题,并且确定自己以前遇到过,他们就会给出与第一次相同的意见,以此来减少认知负担并维持一致性。设想一个关于教师的例子:如果一位教师给一篇作文评了非常高的分数,一个星期之后他又读了这篇作文并看到了第一次的评分,那么他这一次给出的评分不太可能与上一次差别很大。

因此,只要案例容易记住,直接测量情境噪声就很难。比如,你给一名核保员或法官展示一个他们以前处理过的案件,他们可能会回想起这起案件,从而重复自己以前的判断。一篇关于专业判断中存在变异性(4)的评论文章中提到了一些研究。这些研究发现,专家在同一环节做出了两次相同的判断,毫无疑问,他们倾向于与自己保持一致

我们上文提到的实验使用了专家们不能再次辨认出的实验材料,从而绕开了这一问题。葡萄酒评委进行的是盲测;给指纹鉴定专家呈现的是他们已经鉴定过的一对指纹;给软件专家呈现的也是他们已经完成的项目。第二次任务是在几个星期或几个月之后进行的,并且实验人员没有透露这是专家们曾经鉴定过的案例。

还有另一个比较间接的方法可以确认是否存在情境噪声:借助大数据或计量经济学。当可以获得以往大量专业性决策的案例时,分析师们有时就能检验这些决策是否会受到特定情境或无关因素,比如一天的某个时间段或室外温度等的影响,如果这些无关因素产生了统计上的显著效应,则说明存在情境噪声。实事求是地说,不要指望发现可能导致情境噪声的所有外部因素,那些我们已经发现的因素就足以说明存在大量多种多样的因素。如果要掌控情境噪声,我们就必须了解它的产生机制。

群体智慧效应:一个是一群

思考下面这个问题:美国的机场数量占全世界机场总数的百分比是多少?当你思考的时候,一个答案可能会跳进你的脑海,但这个答案产生的方式与你回忆自己的年龄或电话号码时不同。你会注意到,你脑海中出现的数字是一个估计值,当然,它不是一个随机数字——1%或99%显然不是正确的答案。你给出的数字是一系列不可能被排除的可能数字中的一个,如果有人将你的答案加上或减去1%,你可能不会觉得这个答案比你给出的答案的准确性差。正确答案是32%

爱德华·沃尔(Edward Vul)和哈罗德·帕什勒(Harold Pashler)这两位研究人员想到,可以要求人们回答这一问题以及其他类似的问题两次,而不是一次,并要确保被试事前并不知晓他们需要第二次作答。沃尔和帕什勒假设,对两次答案取平均数会比单次答案(无论是第一次还是第二次的答案)的准确性更好。

结果证明他们是对的。总体而言,第一次的答案比第二次的答案更接近真实值,而最准确的估计值是两次推测的平均数。

沃尔和帕什勒的灵感来自一个非常著名的现象——群体智慧效应,它是指对人们的独立判断进行平均会提高判断的准确性。1906年,达尔文的表弟、著名博学大师弗朗西斯·高尔顿(Francis Galton)在一次乡村集市上目睹了787名村民估计一头获奖的公牛的重量。没有一位村民准确猜到公牛的实际重量——大概是1198磅(5),但他们猜测的平均值是1197磅,与实际值仅相差1磅。村民们估值的中位数(1207)与实际值也非常接近。虽然村民个体的估值充满噪声,但全部估值的平均值偏差极小,就这一点而言,村民们是智慧的群体。这一结果让高尔顿备感吃惊,因此,虽然他对普通人的判断并不看好,但他还是极力主张“民主判断的结果,比想象中更值得信赖”。

类似的结果是从成百上千个情境中获得的。当然,如果问题很难,只有专家才能够获得相对准确的答案,那么群体的答案就不会更准确。但是,当让人们猜测透明罐子里夹心糖的数量、预测一个星期后当地的气温,或是估计美国一个州内两个城市之间的距离时,一大群人的平均答案可能更接近事实。出现这种情况的原因是一个基本的统计事实:对多个独立判断或测量进行平均会产生一个新的判断,虽然这一判断不一定会比个体判断产生更少的偏差,但它会产生更少的噪声

沃尔和帕什勒想要看看同样的结果是否也适用于情境噪声:将同一个体的两次猜测进行平均,是否就像将不同人的猜测进行平均一样更接近真实值?沃尔和帕什勒的发现表明,答案是肯定的,他们给这个发现起了一个令人印象深刻的名字:内部群体(the crowd within)。

对同一个体的两次猜测进行平均,对于决策品质的提升效果并没有对两个独立个体的意见进行平均时更好。正如沃尔和帕什勒所指出的:“你对同一个问题做出两次回答带来的好处,是向另一独立个体寻求建议时所获好处的1/10。”显然,这种改进并不大,但如果你能等待一段时间再去做第二次猜测,你所获得的好处会大得多。沃尔和帕什勒在3个星期之后再问被试同样的问题,此时这种做法带来的好处上升到向另一个人寻求意见带来的好处的2/3。在无须额外信息以及外在帮助的情况下,这种方法已经非常不错了。这一结果明显为一种古老的决策智慧提供了理论依据,那就是:“睡一觉吧,明天再说。”

德国研究人员斯蒂芬·赫佐格(Stefan Herzog)和拉尔夫·赫维格(Ralph Hertwig)差不多与沃尔和帕什勒同时提出了另一种基于相同原则的方法。赫佐格和赫维格不是要求人们做出第二次评估,而是鼓励人们尽可能想出其他可能,从而做出与第一次评估不同的评估。这样一来,被试就会积极思考他们在第一次评估时没有考虑到的相关信息。具体做法如下:

首先,假设你的第一次评估是不正确的。其次,思考导致第一次评估出错的几个可能原因——哪些假设或考虑的问题错了?再次,这些需重新考虑的问题意味着什么?第一次评估是过高还是过低?最后,根据这些新的观点做出不同于第一次评估的第二次评估。

与沃尔和帕什勒一样,赫佐格和赫维格会对前后两次评估进行平均。赫佐格和赫维格将这一技术命名为“自我重复抽样法”(dialectical bootstrapping)。相比于只让被试在第一次评估之后立刻进行第二次评估,这种方法大大提升了判断的准确率。因为被试迫使自己从一个新的视角考虑问题,他们创建了另一个样本,选取了另一个版本的自己,进而构成了两个互相分离的“内部群体”成员。因此,二者的平均产生了一个更准确的评估。两个即刻、连续进行的辩证性评估在判断准确度上的获益,是听取他人意见时的一半。

正如赫佐格和赫维格总结的那样,决策者最终要做的是在不同方法之间做出一个简单的选择:如果你能从别人那里得到独立的意见,那么就去做吧,因为这种真正的群体智慧很可能会提升你的判断水平;如果不能,你可以再次做出判断,以此创造一个“内部群体”。针对后者,你可以采用两种方式:要么隔一段时间再做出第二次判断,要么质疑自己的第一次判断,从另一个角度来看待问题。此外,不管是哪一种类型的“群体”,除非你有充足的证据表明需要对其中一次评估赋予更高的权重,否则对两次判断进行平均后的判断就是最佳判断。

除了实用的建议之外,这一系列研究还确认了一个关于判断的本质观点。正如沃尔和帕什勒指出的那样:“被试的反应是从一个内部的概率分布中抽取的,并不是根据被试掌握的全部知识来确定的。”这一发现与你回答美国机场问题时的过程相一致:你的第一个答案并不是根据你的全部知识甚至那些关键的知识得出的,你给出的答案只是你头脑中可能产生的一系列答案中的一个。我们从同一个人对同一个问题的判断中观察到的变异性,并不是一些高度专业的问题中存在的偶然现象,事实上,情境噪声无时无刻不在影响着我们的判断。

情绪,情境噪声的源头

我们至少能够注意到一种情境噪声的来源:情绪。每个人都有过情绪影响判断的经历,而且你肯定意识到了,他人的判断也会受到情绪的影响。

情绪对判断的影响已经成为大量心理学研究的关注点。我们很容易通过一些策略来让人们暂时开心或悲伤,然后测量相应的情绪被诱发之后他们的判断和决策的变异性,比如让人们写下一段开心或悲伤的记忆,或只是简单地让他们看一段有趣的或催人泪下的电影片段。

一些心理学家花费了数十年时间来研究操纵情绪可能产生的效果。其中最高产的也许是澳大利亚心理学家约瑟夫·福加斯(Joseph Forgas),他发表了大约100篇关于情绪的科学论文。

福加斯的一些研究验证了你的思考:一般来说,具有良好情绪的人会更加积极。相比于悲伤的记忆,他们更容易回忆起愉快的记忆,而且他们更倾向于赞同他人,更慷慨,也更乐于助人。消极情绪的作用则刚好相反。正如福加斯所说:“对于同一个微笑,拥有积极情绪的人看到友好,而拥有消极情绪的人可能感到不适。一个人情绪良好的时候,讨论天气会兴致盎然,而当他情绪不好的时候,该话题则显得枯燥乏味。”

换句话说,情绪会对你的思维产生可预见的影响,它关系到你会注意环境中的哪些事物、从记忆中提取哪些信息,以及如何解读这些信息。情绪还会产生另外一个更令人吃惊的效应——它会改变你的思维方式,这种效应甚至超乎你的想象。好的情绪是一把双刃剑,不好的情绪也可能成为困境中的一线希望,不同情绪的利与弊取决于具体的情境。

例如,在谈判中,好的情绪大有裨益。具有良好情绪的人会更富有合作精神、更容易促成互利互惠的局面。最终,他们往往能比情绪不好的谈判者获得更好的谈判结果。当然,成功的谈判也能让人们更开心,但在这些研究中,情绪并不是由谈判过程产生的,而是在谈判之前被诱发的。此外,谈判过程中从情绪良好转向愤怒的谈判者也可能会获得更好的结果——当你遇到一个顽固的对手时要记住这一点!

良好的情绪还会让人更容易接受第一印象。在福加斯的一项研究中,实验人员要求参与者阅读一篇简短的哲学论文,这篇论文随附了作者的照片。一些读者看到了一位典型的哲学教授——男性、中年、戴着眼镜;另一些读者看到的却是一位年轻的女士。和你猜测的一样,这项研究考察的是被试是否容易受刻板印象的影响:相比于年轻女士所写的论文,人们更偏爱由中年男性所写的论文吗?结果表明,的确如此。但更重要的是,在情绪良好的情境中,这种差异更大,拥有良好情绪的人更容易受到偏差的影响。

还有一些研究考察了情绪与上当受骗之间的关系。心理学家戈登·彭尼库克(Gordon Pennycook)及其同事开展了一系列研究,来考察人们对毫无意义、看似深奥实则虚假的陈述的反应。这些虚假的陈述是这样产生的:从一些广为流传的名言中随机挑选出名词和动词,然后组合成语法正确的句子,如“完整性平息了无穷的现象”或“隐藏的意义使无与伦比的抽象美变化无穷”。同意这些陈述的倾向是一种被称为“废话接受力”(bullshit receptivity)的特征。自哈里·法兰克福(Harry Frankfurt)之后,废话已经成为一个术语。法兰克福是普林斯顿大学的哲学家,他写了一本见解独到的书《论扯淡》(On Bullshit)。在这本书中,他将废话与其他类型的虚假陈述进行了区分。

确实,有一些人比其他人更倾向于接受废话。他们可能会被看似令人印象深刻的断言所打动,这些断言虽然看起来真实而有意义,但实际上空洞无物。这里的容易上当受骗并非是一种永久性的、无法改变的倾向。诱发良好的情绪会让人们更容易接受废话,以及更容易上当受骗。他们不太容易觉察到具有欺骗性或误导性的信息。相反,处于不良情绪中的目击者在看到这些具有误导性的信息时,更有可能忽视它们,从而避免做出虚假指证

即使是道德判断也会受到情绪的强烈影响。在一项研究中,研究人员让被试回答“天桥难题”(footbridge problem),这是道德哲学中的一个经典问题。在一个假想的情境中,5个人即将被一辆失控的电车撞死。研究人员要求被试想象自己就站在天桥上,电车很快就会从桥下经过。被试需要决定是否要把旁边一个大个子男人从天桥上推下去,使其落到铁轨上,这样他的身体就能使电车停下来。如果被试这样做了,那么大个子男人会死,但那5个人会因此而得救。

天桥难题体现了道德推理思维之间的冲突。英国哲学家杰里米·边沁(Jeremy Bentham)提出的功利主义认为,失去1条生命比失去5条生命要好。而康德(Immanuel Kant)的道德义务论则认为,不能以拯救更多人的名义杀害某个人。天桥难题明显包含个人的情绪因素:把一个人从桥上推下去落到电车轨道上是一种特别令人厌恶的行为。要从功利主义的角度把这个人从桥上推下去,需要人们克服对伤害陌生人身体这种行为的厌恶。只有少数人表示他们会这么做,在这项研究中,这部分人占比不到1/10。

然而,我们可以通过让被试观看5分钟视频短片的方式来诱发他们良好的情绪,这时他们打算将人推下天桥的可能性增加了3倍。无论我们是把“不可杀人”作为一个绝对的原则,还是愿意杀死一个陌生人来救活5个人,这都应该体现我们最深层的价值观。然而,我们的选择似乎只是取决于刚刚观看的视频短片。

我们详细描述了这些关于情绪的研究,因为我们需要强调一个很重要的事实:你并非在所有时刻都一样。随着情绪的变化(有时候你会意识到),你的认知机制也会改变(你可能根本意识不到)。如果你面临一个复杂的判断问题,当前的情绪会影响你对这个问题的思考以及得出的结论,即便你认为你的判断没有受到情绪的影响,并且能很自信地阐明自己给出最终答案的理由。简而言之,你的判断充满噪声。

其他许多偶然因素也会诱发判断中的情境噪声。在不应该影响但实际上影响了专业判断的诸多外在因素中,压力和疲劳是两个主要因素。一项针对近70万次基层保健门诊就诊情况的研究表明,医生在漫长的一天结束时开阿片类药物的可能性显著增加,然而,没有理由认为预约下午4点就诊的患者比早上9点就诊的患者更痛苦。医生落后的看诊进度也不应该影响处方的决策。事实上,其他治疗疼痛的处方,如非甾体类消炎止痛药以及转介物理治疗,并没有显示出类似的模式。当医生面临着时间压力时,他们显然更倾向于选择快速的解决方案,虽然这样可能会产生一些严重的问题。其他研究也显示,在一天将要结束时,医生开抗生素处方的可能性更大,而开流感疫苗处方的可能性较小

甚至天气也会对专业判断产生显著的影响。天气的影响可能会通过情绪产生作用,即天气虽不会直接影响决策,但会影响决策者的情绪,进而影响决策。不好的天气与记忆力的增强有一定的相关性;当天气炎热时,司法审判会更严厉;阳光明媚的天气会影响股市的走向。而在其他一些案例中,天气的影响则不那么明显。心理学家尤里·西蒙松(Uri Simonsohn)发现,高校招生人员在阴天时更关注候选人的学术表现,而在晴天时对非学术表现更敏感。他报告这些发现时采用的文章标题足以令人难忘——“云让书呆子看起来不错”。

判断会随机变异的另一个案例是不同案件所处的考察顺序。当一个人在思考一起案件的时候,此前一起案件的决策就成了一个潜在的参照点。包括法官、贷款专员以及棒球裁判员在内的做出一系列决策的专业人士,倾向于恢复某种形式的平衡:在连续朝着同一方向做出一系列决策之后,他们更有可能朝着相反的方向做出决策。严格意义上说,后面这些决策是不合理的,因为这样难免会出现误差和不公正。例如,在美国,当前面两个庇护申请获得庇护法官的批准时,下一个庇护申请获得批准的可能性会降低19%。在申请贷款时,如果前面两个申请都被拒绝了,那么接下来的申请很有可能得到批准;但如果前面两个人的申请获得了批准,那么相同的申请此时则更有可能遭到拒绝。这种行为反映了一种被称为“赌徒谬误”(gamblers fallacy)的认知偏差,它指的是人们会认为随机序列中一个事件发生的概率与此前发生的事件有关,从而低估了“坏运气”再一次发生的可能性。

衡量情境噪声

相对于整体的系统噪声,情境噪声有多大呢?虽然没有一个原则适用于所有情境,但存在一个一般性的原则:就大小而言,本章所涉及的这些情境噪声要小于个体在水平噪声和模式噪声方面的稳定差异。

例如,正如上文所提及的,如果同一位法官连续两次批准了庇护申请,那么接下来的申请获得批准的可能性会下降19%。这种变异性肯定是有问题的,但如果与不同法官之间的变异性相比就是小巫见大巫了:天普大学法学院教授杰亚·拉姆基-诺加莱斯(Jaya Ramji-Nogales)及其合作者发现,在迈阿密的一家法院,一位法官批准了88%的庇护申请,而另一位法官只批准了5%的庇护申请。这是真实的数据,不是进行噪声审查的实验数据,因此申请者是不同的,但这些申请者的申请由哪位法官受理可以说是随机的。拉姆基-诺加莱斯及其合作者发现,申请人来源国的差异并不能解释这种差异。如果差异如此巨大,那么申请获得批准的概率下降19%好像也没有什么大不了。

同样,指纹鉴定人员和医生有时候也会做出自相矛盾的判断,但这种情况远远少于与其他人的判断不一致的情况。在我们回顾的每一个案例中,情境噪声在系统噪声中所占的比例都是可以测量的,情境噪声所占的比例皆小于个体间的差异。因此可以这样说:你不可能永远是同一个人,随着时间的流逝,你远没有你所想象的那么前后一致;但令人欣慰的是,与其他人相比,今天的你更像昨天的自己。

造成情境噪声的内部原因

情绪、疲劳、天气、顺序效应等许多因素都可能导致同一个人在对同一案件做出判断时,产生我们不愿看到的变异。我们可能希望构建一个环境,在这个环境中,所有与决策有关的外部因素均是已知、可控的,至少从理论上来说,这样的情境可以减少情境噪声。但即使是这样的情境,也不足以彻底地消除情境噪声。

宾夕法尼亚大学心理学家迈克尔·卡哈纳(Michael Kahana)及其同事研究了记忆的表现。根据我们的定义,记忆不是一项判断任务,而是一项认知任务,可以对其条件进行严格控制,也很容易测量其表现。在其中一项研究中,他们对79名被试的记忆表现进行了非常深入的分析。被试要在不同的日子里参加23场测试会,在此期间他们需要对每组包含24个单词的24组单词进行回忆。他们所能回忆起来的单词数量可以作为记忆表现的指标。

卡哈纳及其同事感兴趣的不是被试之间的差异,而是哪些因素能够预测不同被试之间的差异。不同被试的警觉程度与前一天晚上的睡眠情况是否会影响记忆表现?他们的记忆表现是否会因在一次次的测试会中反复练习而得到提升?在每一次测试会中,记忆表现是否会由于感到疲劳或无聊而降低?是否有一些列表中的单词比其他列表中的单词更容易被记住?

上述所有问题的回答都是肯定的,但对结果的影响并不大。将所有这些因素纳入一个模型中,也只能解释某个特定被试记忆表现差异的11%。正如研究人员所指出的那样:“剔除这些可预测的因素的影响后,还剩下如此大的变异,这着实令我们吃惊不已。”即使在这种严格控制的情境中,到底是哪些因素引发了情境噪声,仍是未知的。

在研究者分析的所有因素中,强烈影响被试对某组单词的记忆表现的一个预测因素,并非外部因素。被试记忆某组单词的表现在很大程度上受他的前一组单词记忆表现的影响。如果他在记忆前一组单词时表现良好,那么他接下来的表现也会很好;如果他在记忆前一组单词时表现一般,那么他接下来的表现也会一般。被试在记忆每一组单词时表现出的差异并不是随机的:在每一次测试会中,它会随着时间的推移而有所起伏,并且没有受明显的外部因素的影响。

用卡哈纳及其同事的话说,这些结果表明,记忆表现在很大程度上受“控制记忆功能的内源性神经过程效率”的影响。换句话说,大脑效率的即时变化并不源于天气或分心等外部因素的影响,而是一种大脑自身运作的特征。

大脑功能的内部变异很有可能以一种我们完全无法控制的方式来影响我们的判断,大脑功能的这种变异性应该可以打消人们认为情境噪声可以被彻底消除的想法。用篮球运动员的罚球进行类比并不像最初看起来那样简单:正如运动员的肌肉从来不会执行完全相同的动作一样,我们的神经元也从来不会以完全相同的方式运作。如果我们的大脑是一种测量工具,那么它永远是不完美的。

然而,我们仍然可以努力去控制这些不应出现但可控的影响,当判断是由群体做出时尤其应该如此。关于这一点,我们将在第8章中进行讨论。