第18章
卓越的判断者,卓越的判断力

至目前为止,我们主要谈论的是人类的判断,而没有对不同的判断者进行区分。显然,在任何一项任务中,有些人做出的判断要优于其他人。即使是由群体做出的判断,如果该群体由高能力个体组成,那么最终的判断也会更优。这就引出了一个重要的问题,即如何甄别出更好的判断者。

有三件事至关重要。如果做判断的人受过良好的训练、更睿智且拥有正确的认知风格,那么他的判断也会产生更少的噪声和偏差。换言之,好的判断取决于你的经验、思维能力,以及你的思考方式。好的判断者往往经验丰富且充满智慧,但他们也时刻保持着思维的开放性,愿意接纳新的信息。

专家和尊重型专家

毋庸赘言,判断者的技能影响其判断品质。例如,资深的放射科医生更有可能对肺炎做出准确的诊断;一些“超级预言家”对世界大事的预测,大大超越其他不那么厉害的同行;如果你召集一些在某个法律领域真正专业的律师,他们可能会对常见法律纠纷的判决结果做出大体一致的、准确的预测。专业水平高的人做出的判断,噪声更少,偏差也更少。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

这些人是某个领域的真正专家。他们能做出比其他人更好的判断,这一点是可验证的,因为有结果的数据可以证明。至少在原则上,我们可以根据医生、预言家、律师以往判断的准确率来进行选择。出于显而易见的原因,这一方法在现实生活中可能遇到困难。我们并不建议你要求你的家庭医生进行专业度测试。

我们已经指出,有一些判断的效果是无法验证的。在一定范围内,我们不能轻易得知或毫无争议地确定一些判断的真正价值,保险核保、刑事判决当属此类。此外,品酒、文章评分、书评和影评,以及其他数不胜数的判断也属此类。虽然这些领域的一些专业人士也被称为专家,但我们对这些专家所做判断的信心建立在同行对他的尊重的基础上。我们将这类专家称为“尊重型专家”(respect-expert)。

尊重型专家这一称谓本身并无冒犯之意,事实上,指出这些专家的判断的价值无法被准确评估这一点也并非一种批评,因为在很多领域中,情况本就如此。很多教授、学者和管理顾问也是尊重型专家。他们的可信度取决于学生、同行或客户对他们的尊重程度。在这些领域乃至其他更多领域中,某位专家的判断只能与他们同行的判断进行比较。

在缺少衡量对错的客观标准时,我们常常会看重尊重型专家的意见,虽然这些专家彼此之间也可能意见不一致。不妨想象这样一个画面:一群政治分析家对外交危机的起因以及可能的发展趋势有着截然不同的看法(这种不一致并非个别现象,如果他们全体意见一致才是怪事)。所有政治分析家都相信有一个正确的观点,而他们自己的观点是最接近正确的那一个。如果你仔细听,你会发现,几位分析家的观点都让人印象深刻,他们的论据也同样具有说服力,你现在不知道他们谁对谁错。如果他们的分析没有通过确定、可证实的预测来明确表达,那你以后也可能不会知道。你知道,至少有些分析家是错的,毕竟他们意见不一致,但你仍然尊重他们的专业性。

再来看一组根本不需要做出任何预测的专家。三位受过良好训练的道德哲学家齐聚一堂,其中一位是康德的追随者,第二位支持杰里米·边沁,第三位信奉亚里士多德。关于道德的要求,他们之间分歧很大。他们争论的内容包括撒谎是否合理、何时撒谎是合理的、动物的权益以及惩罚犯罪的目的。你认真聆听,可能会佩服他们的思维清晰、严谨,也可能倾向于认同他们中的一位,但你对他们所有人都很尊重。

为什么会这样?说得更明确一些,为什么那些因自身判断的高质量而受到他人尊重的人,在没有任何客观证据证明专家专业性的情况下,会选择信任某些专家呢?是什么造就了尊重型专家?

一部分原因是他们遵循共同的准则或专业规范。专家往往需要从专门的组织获得专业认证,并在对应的机构中接受训练,受这些机构监管。完成住院实习的医生和向资深伙伴学习的年轻律师,不仅要学习使用各自行业的技术工具,也要接受特定方法的培训,以及遵守特定的规范。

有了共同的准则,专业人士就能知道在判断时应该考虑哪些因素、如何做出判断,以及如何确保最终的判断更加合理。例如,在保险公司,理赔员很容易就理赔金额达成一致,并阐述充分的理由,因为这些要考虑的因素已经包含在了理赔评估检查清单中。

当然,这种一致性并不能消除理赔员在理赔评估中存在的广泛差异,因为规范并没有对所有细节做出十分明确具体的规定,让理赔员照搬照做。事实上,规则留有解释的空间。专家仍然需要做出判断,而不是执行计算过程,这就是为什么噪声不可避免。即使受过相同训练的专业人士认可共同的准则,他们在实际应用该准则时,彼此之间也存在差异。

除了掌握共同的准则,专家还要具备丰富的经验。如果你的特长是下围棋、演奏钢琴,或是投掷标枪,那么你有可能成为天才少年,因为结果验证了你的水平。然而,核保员、指纹鉴定人员、法官则需要多年的经验才能获得认可,在核保行业,天才少年根本不存在。

尊重型专家的另一个特征是,他们能够满怀信心地做出判断并解释自己的判断。相比于那些自我怀疑的人,我们更加信任那些满怀自信的人。自信启发式(confidence heuristic)指出,在群体中,自信者具有更高的影响力,即使他们的自信毫无理由。尊重型专家善于构建能自圆其说的理论,他们能够凭借经验识别事件的模式,与之前的案例进行类比推理,迅速形成并验证假设。他们很容易将所见的事实整合成一个连贯的故事,这种能力令他们信心十足。

智商高的人判断力更好

训练、经验以及自信是尊重型专家获得信任的决定性因素,但具备这些因素并不能确保他们做出的判断就是高品质的。那么,我们怎样才能知道哪些专家能做出更好的判断呢?

我们有充足的理由相信,智力水平与更好的判断相关。智力与几乎所有领域的良好表现都相关。在所有其他条件等同的情况下,智力不仅与更好的学业成就有关,也与更好的工作绩效相关

对于如何测量智力或一般心智能力(General Mental Ability,GMA)(9),争议和误解一直存在。人们对智力的本质也一直存在误解。事实上,这些测试测量的是发展能力,这些能力一部分由遗传决定,一部分受环境(包括教育机会)影响。许多人也担心根据GMA测试做出的筛选会对一些社会群体产生不利影响,并质疑将GMA测试用于筛选是否合理。

我们需要将对这种测试的担忧及其实际的预测品质区分看待。自从一个世纪以前美国陆军采用心智能力测试以来,成千上万的研究考察了人们的认知测试分数与其随后表现之间的关系。通过大量研究,人们得出了非常清晰一致的结论。就像一篇评论文章所指出的那样:“GMA预测的是个体在其所选职业中能达到的专业水平及其表现。它在这两个方面的预测能力比预测任何其他能力、个性特征、性格特点的能力都要强,并且比根据工作经验进行预测更为准确。”当然,其他认知能力也很重要(本章稍后将详细讨论)。一些个性特征也很重要,其中包括责任心和毅力——在追求长期目标时的意志和热情。当然,GMA未能将多种不同形式的智力纳入测量范畴,例如实践智力与创造力。心理学家和神经科学家还把智力分为晶体智力(crystallized intelligence)和流体智力(fluid intelligence),前者是指个体根据自身所掌握的关于世界的知识(包括数学运算)解决问题的能力,后者是指个体解决新问题的能力。

标准化的GMA测试测量个体在语言、计量和空间等方面的能力,尽管它还比较粗糙并存在一定的局限,但它仍然是迄今为止重要结果的最佳单个预测指标。正如那篇评论文章所指出的,GMA的预测效力比心理学研究中的大部分测量方法都好。随着工作内容复杂程度的增加,GMA与工作成就之间的相关性也会增加,这非常合乎逻辑——相比于从事简单工作的人,智力对火箭专家来说显然更为重要。对于高度复杂的工作,标准化测验分数与工作绩效之间的相关系数可以达到0.5(PC=67%)。我们在前面已经指出,按照社会科学的标准,相关系数达到0.5代表非常强的预测力

在讨论高度专业性的判断时,人们经常会提到一个反对智力测量相关性的重要理由:所有做出这些判断的人很可能都拥有高GMA。相比于普通大众,医生、法官以及高级核保员通常都受过更好的教育,因而他们的认知能力测试得分往往会高出普通人很多。据此,你可能有理由相信,高GMA在他们之间并没有产生什么差别,它只是进入高成就群体的“入场券”,而不能解释这个群体中个体成就的差异。

这种观点虽然被普遍接受,但并不正确。毫无疑问,对于某一特定职业,相比于处于顶层的人群,底层人群的GMA分布范围更广:从事社会地位较低的职业的群体中有高GMA的个体,但在律师、化学家或工程师这些职业中,几乎没有GMA低于平均水平的人。从这个角度来看,高GMA是从事社会地位较高的职业的必要条件。

然而,这个测量指标并不能解释这些群体中的个体在成就上的差异。即使是认知能力的评测成绩位于前1%的群体(评测时的年龄为13岁),他们能获得的突出成就也与GMA高度相关。在这前1%的群体中,那些处于前1/4的人获得博士学位、出版著作、获得专利的可能性比那些处于后1/4的人高出2~3倍。换言之,GMA差异的重要性,不仅存在于第99百分位数和第80或第50百分位数之间,甚至在第99.88百分位数和第99.13百分位数之间仍然存在!

2013年的一项研究重点调查了《财富》500强企业的CEO和424位美国亿万富翁(财富排名前0.0001%的美国人),结果惊人地证明了能力与成就之间的关联。这项研究发现,这些超级精英群体是由智商最高的一群人组成的,这与预期一致。这项研究还发现,在这一群体内部,更高的受教育水平和能力水平,与更高的薪酬(对CEO而言)和净资产(对亿万富翁而言)相关。虽然偶有个例,比如史蒂夫·乔布斯、比尔·盖茨和马克·扎克伯格等是从著名大学辍学后成为亿万富翁的,但他们是“遮挡了森林的树木”——仅有约1/3的美国成年人获得了大学学位,但美国亿万富翁获得大学学位的比例高达88%。

结论显而易见。在需要做出判断的职业中,GMA会显著影响判断的品质,即使是在一群高能力的个体之中,情况亦是如此。有人认为存在一个界限,达到这个界限之后,GMA就不再起作用,但这种观点没有得到上述证据的支持。这一结论反而强有力地表明,如果专业判断是无法验证的且只能假定它更接近一个看不见的靶心,那么高能力个体的判断更有可能接近目标。如果你必须挑选一些人来做判断,那么你的最优选择是挑选那些高智商的人。

这一系列推理有一个严重的局限。由于你不能对每一个人进行标准化测试,你就需要去猜测哪些人属于高GMA人群。高GMA能显而易见地提高诸多方面的表现,包括有能力让别人相信你说的是对的。具有高心智能力的人,比其他人更能做出好的判断,也更有可能成为真正的专家;他们也同样能给同行留下深刻印象,获得后者的信任,在缺少现实反馈的情况下成为尊重型专家。这样看来,中世纪的占星家就有可能是那个时代的高GMA人群。

信任那些举止言谈给人睿智之感或是能为他们自己的判断做出令人信服的解释的人,这种策略有一定的合理性,但并不完全理性,甚至可能适得其反。那么,是否有其他方法可以甄别出真正的专家呢?能够做出更好判断的人是否还具有其他明显的特征呢?

认知风格对判断的影响

不管心智能力如何,人们的认知风格或执行判断任务的方法都是不同的。研究人员已经研发了一些表现认知风格的工具。大部分测量方法都与GMA相关(或者彼此相关),但测量的重点各不相同。

其中一种测量是“认知反射测试”(Cognitive Reflection Test,CRT),该测试就是大众熟知的“球和球棒”问题:一个球和一个球棒的价格为1.1美元,球棒比球贵1美元,那么这个球值多少钱?研究人员建议使用的其他测量问题包括:在一场跑步比赛中,你超过了第二名,你现在是第几名?CRT旨在测量人们能够在多大程度上抑制闯进大脑中的第一个答案,也就是错误的答案:在球和球棒问题中回答“0.1美元”,在跑步比赛问题中回答“第一名”。低CRT得分与现实生活中的一些判断和信念有关,比如相信鬼魂、占星术、超感知觉(俗称“第六感”)。CRT得分还可以预测人们是否会因为明显不准确的“假信息”而上当该测试的得分甚至与人们使用智能手机的程度有关

许多人将CRT视为测量一种更宽泛的概念的工具,即测量人们是否会习惯性地运用反射性或冲动性思维过程。简言之,有些人喜欢深入思考,而另一些人在面对同样的问题时往往会相信自己一时兴起做出的判断。用我们的专业术语来说就是,CRT是一种测量人们倾向于使用缓慢的系统2思维还是快速的系统1思维的方法。

其他自我评估的方法也被用来测量这一倾向,当然,所有这些测试都是彼此相关的。例如,认知需求量尺考察人们愿意在多大程度上仔细思考问题。要想在这项测试中得高分,你必须认同“我倾向于设定一些我要付出大量脑力劳动才能实现的目标”而不能认同“思考不是我的乐趣”。认知需求高的人不太容易出现已知的认知偏差。研究者还提及了一些匪夷所思的联系:“如果你不喜欢‘剧透’,你可能具有更高的认知需求;那些在认知需求量表上得分低的人,更偏爱‘剧透’。”

这是一个自我评估的量表,并且什么样的答案更容易得到大众认可是显而易见的,因而会引发相当合理的质疑。那些希望给他人留下良好印象的人不太可能会认同“思考不是我的乐趣”这样的表述。因此,其他测验试图直接测量人们的技能,而不再采用自我描述的方式。

其中一个例子是“成人决策能力量表”(adult decision making competence scale)。这一量表测量人们在判断过程中犯一些典型错误的倾向性,比如风险知觉中的过度自信或不一致性。另一个例子是“哈尔彭批判性思维测试”(Halpern critical thinking assessment),这一工具主要评估批判性思维技能,包括理性思考的倾向和一套可习得的技能。在评估中,你需要回答类似下面的问题:想象一下,你的一位朋友不知道应该选择两个减肥项目中的哪一个,于是向你征求意见。其中一个项目称他们的客户平均减掉约11千克;另一个项目称他们的客户平均减掉约13.6千克。在进行选择之前,你认为需要先弄清楚哪些问题?如果你回答说,你想知道“有多少人减掉了这么多重量”“减肥效果能否维持一年以上”等问题,你就会因应用了批判性思维而获得相应的分数。在成人决策能力量表或哈尔彭批判性思维测试中,获得高分的人们在生活中似乎能做出更好的判断:他们较少承担由错误判断导致的不良后果,例如意外怀孕,或因忘记归还租来的影碟而不得不支付滞纳金。

认知风格和能力的测量以及其他测量都能对判断品质进行预测,这种看法似乎是合理的。然而,认知风格和能力与判断品质之间的相关性随任务的不同而产生差异。乌里尔·哈兰(Uriel Haran)、伊拉娜·里托夫(Ilana Ritov)和芭芭拉·梅勒斯在寻找可以作为人的预测能力指标的认知风格时发现,认知需求并不能预测谁会更努力地去获取信息。他们也并未发现认知需求与更高的绩效之间存在稳定的关系。

唯一能预测人们的预测品质的量表是由心理学教授乔纳森·伯龙(Jonathan Baron)发明的。该量表用于测量人们的“积极开放性思维”(actively open-minded thinking)。积极开放性思维是指个体愿意积极搜寻与自己先前的假设相矛盾的信息,这些信息包括其他人的不同意见以及与原有看法不一致的新证据。具有积极开放性思维的人会认同“允许自己被相反的意见说服是一种良好的品质”这类陈述,而不认同“改变想法是一种脆弱的表现”或“直觉是决策的最佳指南”这类观点。

换言之,虽然认知反射和认知需求的得分情况反映的是人们进行慢思考或审慎思考的倾向,但积极开放性思维更胜一筹。那些谦逊的人会一直提醒自己判断是一个不断发展的过程,并渴望被纠正。我们在第21章会看到,拥有这种思维模式的人是最好的预测者,他们会根据新的信息不断修正自己的思维和观念。好消息是,一些证据表明,开放性思维是一种可习得的技能

这里,我们不打算就如何在某些领域挑选出能做出良好判断的人给出一个硬性的结论,但从上面这个简短的描述中可以得出两个通用原则。首先,比较明智的做法是,认识到不同领域专家之间的区别:在一些领域,例如天气预报领域,专家的预测是可以被客观验证的,因此其专业水平可以分出优劣;而另一些领域的专家则是尊重型专家,比如政治分析家可能说得头头是道,令人信服,而象棋大师可能看起来谦卑内敛,也无法解释走出某些棋步的理由,然而,相比于后一种情况,你更需要对前一种专家的判断持怀疑态度。

其次,一些判断者有可能比其他具有同等资历和经验的人做得更好。如果有些人表现得更好,那么他们的判断将会出现更少的偏差或噪声。在导致这种差异的诸多因素中,智商和认知风格是关键。尽管没有哪一项单独的测试或量表能够准确无误地预测人们的判断品质,但你可以试着去物色这样的人:他们愿意积极搜寻与自己的看法不一致的信息,并把这种信息整合进当前观点,且希望最终能改变自己的想法。

具有卓越判断能力的人,他们的个性可能不符合公众认可的行事果断的领导者形象。人们往往倾向于相信和喜欢这样的领导者:他们自信满满、口齿伶俐,似乎轻而易举或生来就知道什么是对的,而且这类领导者还能激发人们的信心。但证据表明,如果想要减少错误的判断,那么对于领导者或普通人而言,最好的做法是对反对意见持开放态度,并乐于接受“自己可能错了”的想法,如果依然想要坚持己见,那也是在听取了各方意见之后,而不是之前。