同步阅读进度,多语言翻译,过滤屏幕蓝光,评论分享,更多完整功能,更好读书体验,试试 阅读 ‧ 电子书库
哪里有预测,哪里就有客观无知
我们经常同一些公司高管分享第9章和第10章中的研究内容,并通过发人深省的发现让他们意识到人类的判断是有限的。这些发现已经存在了半个多世纪,应该很少有人能避开它们,但人们仍然对这些发现很抵触。
在我们的听众里,有一些高管会很自豪地告诉我们,相比于定量分析,他们更相信自己的直觉;其他人虽然没明说,但他们也有同样的看法。有关管理决策的研究表明,高管通常会凭直觉、感受或简单的判断(此处的判断与本书中“判断”一词的含义不同)来行事,尤其是级别较高的、经验丰富的高管。
简而言之,决策者喜欢听从自己的直觉,且多数人对直觉传递出的信息颇为满意。这里存在一个问题:这些极其自信的权威人士究竟从他们的直觉中“听”到了什么呢?
一篇有关管理决策中的直觉的综述性文章,将直觉定义为对给定行动方案的一种判断。这种判断是一种预感或关于正确性/合理性的信念,但这种判断没有明确的理由或依据,从本质上说,就是“知道是什么,却不知道为什么”。我们认为,这种“知道是什么,却不知道为什么”的直觉,实际上就是我们在第4章中提到的做出判断时产生的内部信号。
内部信号是一种自我管理的奖励,是一个人努力(有时或许没那么努力)做出判断并最终完成判断后的奖励。它是一种令人满意的情感体验,也是一种令人愉悦的一致感,它使我们感觉我们所考虑的证据和做出的判断是正确的,就如同玩拼图游戏时把所有的碎片都拼对了一样。稍后我们将看到,隐藏或忽略那些与判断不匹配的证据还可以增强这种一致感。
内部信号很重要,但具有误导性,因为内部信号往往会被理解为一种信念而不是感觉。这种“感觉正确”的情感经验伪装成了我们对判断有效性所持的信心——我知道该判断是正确的,即使我不知道为什么。
然而,对判断所持有的信心并不能保证判断的准确性,许多充满信心的预测都是错的。尽管偏差和噪声都会造成预测误差,但此类误差最重要的来源并非受限于预测性判断实际有多好,而是受限于预测性判断应该有多好。我们将这一局限性称为“客观无知”(objective ignorance),这也是本章的重点。
客观无知如果你经常进行预测性判断,那么你可以问自己一个问题,这个问题可能适用于很多工作,如选择股票或预测职业运动员的表现。为了方便起见,我们使用在第9章中出现过的筛选应聘者的例子。假设近年来你已经评估了100名应聘者,现在,通过将自己的评估与应聘者入职后的实际表现进行对比,你就能够对自己的招聘决策的品质进行评估。如果你随机选出两名你评估过的应聘者,你认为你的事前判断和事后结果达成一致的可能性有多大?换句话说,比较任意两名应聘者,你认为更有潜力的应聘者实际上表现也更好的概率有多大?
我们经常就此问题对高管进行非正式调查,高管们的答案大部分为75%~85%。我们怀疑,他们可能由于谦虚或不想被认为是自吹自擂才做出了这样的回答,否则他们给出的比例会更高。研究人员在与高管们私下一对一的交谈中发现,高管们实际的自信程度往往更高。
既然你已经熟悉一致性比率(PC),那么你可以轻易地看出此类评估的问题。PC为80%大致对应的相关系数为0.8,在现实中人们的预测能力几乎无法达到这么高的水平。近期一篇有关人才选拔的报告指出,人类判断的预测相关系数远低于0.8,平均而言,人类判断的预测相关系数为0.28(PC=59%)。
鉴于人才选拔的难度很大,人类判断的表现糟糕也在情理之中。年轻人刚从事一份新工作时会面临许多机遇和挑战,这些机遇和挑战会以各种方式改变他的生活。他可能很幸运,遇到一位信任他、给他机会、在工作上提携他、帮他建立信心、能调动他的工作积极性的主管;他也可能没那么幸运,尽管自己没犯什么错,职业生涯却充满挫折。同样,他在私人生活中可能遇到的很多事也会影响他的工作表现,而这些事都是人们在当下无法预测的,就算是世界上最好的预测模型也无法预测,这种难以解决的不确定性包括所有与你的预测有关但当下无法得知的信息。
此外,与应聘者有关的很多事情从原则上说应该是可以知道的,但你在做判断时并不知道。对我们的目的而言,不管这种知识上的差距是源于缺少足够的预测性测试,还是由于获取更多信息的成本过高,抑或是由于你自己的调查疏忽,都无关紧要,不管是哪个原因,你都处于信息不完备的状态中。
难以琢磨的不确定性(未知之事)和不完备的信息(可知但不知之事)都将使完美预测变得不可能。这些未知信息并非源于判断中的偏差或噪声,而是源于任务本身的客观特征。这种由于重要信息缺失而产生的客观无知严重限制了人们判断的准确性,为避免用词太过专业,我们用“无知”来指代这种不确定性。这样可以避免混淆“不确定性”和“噪声”。不确定性是关于世界和未来的,噪声是本应相同的判断中出现的变异。
在某些情况下,我们能获得的信息比另外一些情况下更多,而且客观无知更少。此时,大多数专业判断的表现都是非常不错的。例如,医生可以对很多疾病做出准确的诊断,律师在面对法律纠纷时可以准确地判断法官的判决结果。
但是,一般而言,你仍然可以想象到,从事预测性工作的人还是会低估自身的客观无知。过度自信是已经被大量研究证明了的一种认知偏差。具体而言,人们往往会过度高估自己做出准确预测的能力,即使是在信息有限的条件下。我们所讲的预测性判断中的噪声也可以被称为客观无知,哪里有预测,哪里就有客观无知,而且客观无知比你想象的要严重得多。
异常自信的权威:准确性和黑猩猩扔飞镖差不多心理学家菲利普·泰特洛克是我们的好朋友,他是一个坚持真理且充满幽默感的人。2005年,他出版了《专家的政治判断》(Expert Political Judgment)一书。书名听起来是中性的,但实际上这本书对专家预测政治事件的能力进行了猛烈抨击。
泰特洛克研究了近300位专家的预测,包括著名的记者、受人尊敬的学者以及国家领导人的高级智囊团等。他想验证这些人的政治、经济和社会性预测是否正确,这项研究持续了20年之久。可见,想要验证长期性预测是否正确,你必须有足够的耐心。
泰特洛克的主要发现是:这些所谓的专家在对重大政治事件进行预测时表现得非常糟糕。书中有句玩笑话很有名:“整体上,普通专家预测的准确性和黑猩猩扔飞镖差不多。”更精确地说,那本书的核心内容是:那些以“对政治和经济趋势发表评论或提供建议”谋生的专家,他们“在‘展望’新趋势时,做得并不比《纽约时报》的记者或细心的读者好”。可以肯定的是,专家们讲故事的能力很强,他们可以分析形势,并用令人信服的方式来描绘事态的发展趋势,并满怀信心地在演播室里反驳那些提出反对意见的人,但是他们真的知道会发生什么事吗?事实上,他们可能并不知道。
泰特洛克撕开了专家们的面具,并得出了上述结论。对于每个预测性问题,他都要求专家给出三种结果(维持现状、很可能发生或不大可能发生)的对应概率。在理想情况下,即使让一只黑猩猩通过扔飞镖的方式进行选择,它都会以相同的概率(1/3)“选中”三个结果中的任意一个。泰特洛克发现,专家们预测的准确率并不比这一最低标准好多少。平均而言,他们评估那些未来真正发生了的事件时,给出的概率只比那些最终没有发生的事件稍微高一点,但他们常常表现得异常自信。那些对世界该如何运转拥有一套清晰理论的权威人士是最自信的,也是最不可靠的。
泰特洛克的发现表明,对具体事件进行详细的、长期性的预测根本不可能。这个世界是混乱的,一些微不足道的小事都可能引发严重的后果。例如,在受孕的瞬间,历史上的每个重要人物以及无关紧要的人物都有50%的可能性会以另一种性别出生。那样一来,注定会发生不可预见的事件,而且这些不可预见的事件的后果也是不可预见的。因此,你对未来的展望越远,客观无知就积累得越多。专家们在政治判断上的局限性并非源于预测者的认知局限,而是由他们对未来的客观无知所决定的。因此,我们的结论是:不应该将专家失败的预测归咎于专家本人。但是,他们确实应该受到批评,因为他们在尝试完成一项不可能完成的任务,却相信自己可以做到。
泰特洛克还有一项令人震惊的发现:长期预测毫无用处。几年后,他与妻子芭芭拉·梅勒斯(Barbara Mellers)合作,研究了人们在相对较短的时间内(通常不到一年)对事件进行预测的情况。他们发现:短期预测是困难的,但并非不可能,而且有些人始终比大多数人(包括情报界的专业人士)预测得好。泰特洛克和梅勒斯将这些人称为“超级预测者”(superforecasters)。在我们看来,客观无知会随着我们对未来展望的深入而增多,他们的新发现恰恰与这一观点相符。我们将在第21章中继续讨论超级预测者。
人的判断很糟糕,但模型也不尽如人意泰特洛克的早期研究表明,对于时间跨度较大的政治预测,人们往往是无能为力的。要想证明一项任务是不可能完成的,只有在很多可靠的参与者尝试了该任务并且都失败了的情况下才能做到,时间跨度较大的政治预测便是如此。我们已经给大家展示过,对信息进行机械性汇总的结果通常比人类的判断更优。由于在预测方面的准确性,规则和算法能够更好地验证某些结果能否真正被预测。
前面的章节可能会让你形成一种印象,即算法在进行预测性判断时具有压倒性的优势,但是你有这种印象可能是被误导了。模型确实比人表现得更好,但并没有好很多。没有证据表明,在依据相同的信息进行预测时,人类表现得非常差而模型却表现得非常好。
在第9章,我们提到有一篇报告对136项研究进行了回顾,这些研究表明机械性的整合优于诊断性判断。尽管这种优势的确是“大规模且一致的”,但两者的表现差距并不大。该报告中有93项研究关注的是二选一的决策问题,它们衡量了临床医生和公式的“命中率”。总体来说,临床医生有68%的预测是正确的,而公式有73%的预测是正确的。报告中另有35项研究用相关系数来衡量预测的准确性。这些研究发现,临床医生的判断与真实结果的平均相关系数为0.3(PC=60%),而公式预测的相关系数是0.56(PC=69%)。在这两个指标上,公式总是比临床医生预测得好,但是机械性预测的有效性依然有限,使用模型并不能改变相当低的预测性的上限。
人工智能的预测性如何呢?正如前文所述,人工智能通常要比简单模型表现得好,但在大多数情况下,它的表现远称不上完美。例如,请回想一下我们在第10章中讨论过的保释预测算法,我们发现,被拒绝保释的人数如果保持不变,该算法可以将犯罪率降低24%,相比于法官所做的预测,这是一个较大幅度的改进。但是,如果该算法可以准确地预测哪些被告会再次犯罪的话,它就能更大幅度地降低犯罪率。对未来将发生的犯罪行为进行预测是一种超自然的能力,它只存在于《少数派报告》(Minority Report)这种科幻小说中,因为对人类行为进行预测要面临大量的客观无知。
由塞德希尔·穆来纳森和齐亚德·欧博迈亚(Ziad Obermeyer)完成的另一项研究对心脏病诊断进行了建模。当患者有心脏病突发的迹象时,急诊医生必须决定是否需要进行额外的检查。原则上,仅当患者心脏病突发的风险足够高时才应进行额外的检查——这些检查不仅昂贵,而且有一定的风险性和侵害性。低风险患者无须进行额外的检查。因此,医生在决定是否开检查单时需要先评估患者心脏病突发的风险。研究者建立了一个人工智能模型来完成这一评估。该模型基于大样本数据(160万名患者的440万次医保就诊记录),并且使用了2400多个变量,有如此大的数据量,该模型应该可以突破客观无知的限制。
不出所料,该人工智能模型的准确性明显超过临床医生。若想进一步评估该模型的预测性能,请你想一下,如果对那些被模型判定为具有最高发病风险(前10%)的患者进行检查,并发现其中有30%的人确实会突发心脏病,而那些被模型判定为具有中等发病风险的患者中,只有9.3%的人突发了心脏病,我们就可以据此推论,医生的表现受限于客观无知的程度,至少与其受限于判断力不足的程度相差无几。
否认无知是无知的另一种诱导完美预测是不可能实现的,这似乎是显而易见的事。当然,断言未来是不可预测的也算不上什么具有突破性的见解。然而,众多研究证据都表明,人们做预测时会过分自信,这说明很多时候这一显而易见的事实被我们忽视了。
过分自信的普遍性让我们对非正式调查中那些相信直觉的决策者有了新看法。我们发现,人们经常错误地将自信水平这一主观指标当成预测有效性的指标。例如,在第9章中,看完有关娜塔莉和莫妮卡的信息后,你做出了与信息相一致的判断,这时内部信号就会使你确信娜塔莉是更优的候选人。如果你对你的预测充满信心,你就已经陷入了效度错觉中:仅通过你所获取的信息进行预测,其准确性必然非常低。
那些对自己的判断极度自信的人否认自己的判断中存在噪声和偏差。他们不仅认为自己优于常人,甚至认为自己可以对一些实际上不可预测的事件进行预测。也就是说,他们从根本上否认现实的不确定性。用我们的术语来说,这种态度就是“否认无知”(denial of ignorance)。
梅尔及其追随者一直很困惑:为什么他们的研究结论未受到重视?为什么决策者总是依靠直觉来做决策?否认无知或许可以为此提供一个新的解释。当决策者聆听自己的直觉时,他们会听到内部信号,并感受到它带来的情感奖励。这种内部信号提示决策者已经做出了好的判断,它给了人们自信,让他们相信“知道是什么,却不知道为什么”的合理性。但是,对证据的真实预测效果进行的客观评估,很少能证明这样的自信是合理的。
放弃直觉确定性带来的情感奖励并非易事。因此,领导者们说,在高度不确定的情况下,他们更有可能依赖于直觉进行决策。如果现实无法给予他们把控感和信心,他们便会在直觉中寻求这些感觉。在充满无知的情况下,否认无知就显得更加诱人。
否认无知还解释了另一个谜团。面对我们之前给出的研究证据,许多高管给出了一个矛盾的结论。他们辩解道,尽管基于直觉的决策并不完美,但是,如果系统性的替代方案依然不完美,那么这样的方案就不值得采用。例如,人类判断的预测得分与员工绩效之间的平均相关系数为0.28(PC=59%),相应地,机械性预测可能做得更好,但并没有好很多,其预测的相关系数为0.44(PC=65%)。那么高管们可能会问,为什么我们还要采用机械性预测呢?
答案是,在诸如人事选拔这类重要的决策上,这种预测有效性的提高是很有意义的。某些高管会不断地在工作中做出重大改变,但得到的回报并不多。理性地讲,他们明白没有100%的成功,因此会努力做好各种决策以提高成功的可能性。他们也明白概率的含义:如果能够以相同的价格购买有65%中奖概率的彩票,没有人会去购买只有59%中奖概率的彩票。
问题在于,在很多情况下两者的“收益”是不一样的,直觉判断往往伴随着奖励,即内部信号。当算法能够获得更高的准确性时,人们会更愿意相信算法,因为它的确定性带来的“收益”可以与内部信号相匹敌,甚至超越它。然而,如果替代方案是某种不一定会产生更高的预测准确性的机械性过程,人们就不愿意放弃内部信号带来的情感奖励了。
这一发现对于提高决策的品质具有重要意义。尽管所有证据都表明,机械性的预测方法和算法确实可以在一定程度上提高预测的准确性,但很多决策者仍会拒绝采用这些不让他们依据直觉进行决策的方法。只要算法还不够完美,人类的判断就不会被取代。而且在许多领域中,客观无知决定了算法不可能达到完美。这就是必须对人类判断进行改进的原因所在。
请支持我们,让我们可以支付服务器费用。
使用微信支付打赏