第21章
甄选与汇总,超级预测的两大策略

许多判断都涉及预测,比如,下个季度的失业率可能是多少?明年将售出多少辆电动汽车?2050年的气候变化会带来什么影响?盖完一幢新楼需要多长时间?某家公司的年收入是多少?新员工会有什么样的表现?新的空气污染管理制度的成本是多少?谁将赢得选举?这些问题的答案会产生重大影响,因为私人机构和公共机构的一些重要选择往往取决于这些答案。

预测分析员的工作职责是分析预测何时会出错以及为何会出错,他们对偏差和噪声(也被称为不一致性或不可靠性)进行了明确的区分。人们一致认为,在某些情况下,预测者的预测是有偏差的。例如,官方机构在对预算进行预测时,会表现出不切实际的乐观。平均来说,他们对经济增长的预测高得离谱,而对赤字的预测则低得不切实际。实际上,无论他们这种不切实际的乐观是出于认知偏差还是政治目的,都无关紧要。

此外,预测者往往过于自信:如果要求将他们的预测用置信区间而不是用单点估计值来描述,他们倾向于选择更窄的区间,而实际上这样做并不合理。例如,一项正在进行的季度调查要求美国一些公司的首席财务官估计下一年标准普尔500指数的年回报率。首席财务官们要提供两个数字:一个是最小值,即他们认为实际回报率有1/10的可能性低于该值;一个是最大值,即他们认为实际回报率有1/10的可能性高于该值。这两个数值的置信区间是80%。然而,事实上实际回报率落入这个区间的可能性只有36%,也就是说,首席财务官们对自己预测的准确性过于自信了。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

预测者也充满噪声。J.斯科特·阿姆斯特朗(J. Scott Armstrong)在《预测原理》(Principles of Forecasting)中指出,即使在专家中,“不可靠性也是判断预测的误差来源之一”。事实上,噪声是误差的主要来源。情境噪声很普遍:预测者自己的观点也并不总是前后一致。人与人之间的噪声也很普遍:预测者之间意见不一致,即便他们都是专家。如果让法学教授预测最高法院的裁决,你会发现大量的噪声。如果请相关专家预测实行空气污染管理制度的年度效益,你会发现巨大差异,例如从30亿美元到90亿美元不等。如果你让一群经济学家对失业率和经济增长情况做出预测,你也会发现他们的预测之间存在很大的差异。我们已经看到了许多存在噪声的关于预测的例子,而对预测的研究可以揭示更多问题。

改进预测的两种方法

研究也为减少噪声和偏差提供了建议。我们不会在此进行详尽描述,但会重点讨论两种广泛适用的减少噪声的策略。一种是应用我们在第18章提到的原则——选择更好的判断者,从而做出更好的判断;另一种是最普遍适用的决策卫生策略之一——汇总多项独立的评估结果。

对多个预测进行汇总的最简单方法是对它们取平均值。从数学的角度来看,平均值法能够保证减少噪声,具体地说,减少的量就是(1-判断总数平方根的倒数)。也就是说,如果你对100个判断取平均值,那么将减少90%的噪声,如果你对400个判断取平均值,则可以减少95%的噪声——基本上就消除噪声了。这一统计规律促使我们采用在第7章讨论过的群体智慧的方法。

由于平均值法不能减少偏差,对总体误差的影响取决于偏差和噪声的比例。这就是为什么当判断彼此独立时,群体智慧最有效,因为群体智慧中不太可能出现共同的偏差。大量实验证据表明,对多次预测取平均值会大大提高预测的准确性,例如在股票分析中,经济预测员的“共识”性预测最准确。就销售预测、天气预测和经济预测而言,一组预测者的未加权平均值优于大多数个体甚至所有个体的预测。而且,通过不同方法获得的平均预测具有相同的效果:在一个涵盖30项各领域的实证比较分析中,研究人员发现综合预测平均减少了12.5%的误差

直接取平均值并不是对预测进行汇总的唯一方法。群体选择策略与直接取平均值的方法一样有效,即根据近期判断的准确性来选择最好的判断者,然后对少数判断者的判断取平均值。对尊重专家意见的决策者而言,他们更容易理解并采取一种既依赖于汇总又依赖于群体选择的策略。

产生汇总预测的一种方法是利用“预测市场”(prediction markets),在预测市场中,个体就各种可能的结果下注,从而得到激励来做出正确的预测。如果预测市场的价格表明某些事件发生的概率大约是70%,那么它们大约有70%的可能性会发生。从这个意义上说,大多数时候,预测市场的表现非常好。来自各个行业的许多公司都利用预测市场来汇总不同的观点

另一个汇总不同观点的正式程序是德尔菲法(Delphi Method)。该方法的经典范式是一个包括多轮信息反馈的过程,在此过程中,参与者向组织者提交评估(或投票),并且彼此保持匿名。在新的一轮中,参与者都会给出自己评估的理由,并对其他人给出的理由做出回应,这个过程仍然是匿名的。这一过程鼓励估计值趋同(有时要求新的判断值落在前一轮判断分布的特定范围内,从而迫使估计值趋同)。这种方法能够同时从汇总和社会学习中获益。

德尔菲法在很多情况下都很好用,但是实施起来有一定的挑战性。有一个更简单的版本可以在单个会议中实施,那就是“迷你德尔菲法”。这个方法也被称为“评估-讨论-评估法”(estimate-talk-estimate),它要求参与者首先给出独立的(未公开的)评估,然后进行解释,并说明理由,最后根据其他人的评估和解释做出新的评估。共识性判断是第二轮中获得的个体估计的平均值。

良好判断计划的4个步骤

关于预测质量的一些最具创新性的研究超出了目前为止我们所探讨的内容。这些研究始于2011年,当时3位知名的行为科学家创立了“良好判断计划”(Good Judgment Project)。菲利普·泰特洛克(我们在第11章讨论过他对政治事件长期预测的评估)、他的妻子芭芭拉·梅勒斯以及唐·穆尔(Don Moore)联手提升我们对预测,特别是对为什么有些人擅长预测的理解。

良好判断计划首先招募了数以万计的志愿者,这些志愿者并非专家,而是来自各行各业的普通人。他们被要求回答数百个问题,例如:

· 印度或巴西是否会在未来两年内成为联合国安全理事会常任理事国?

· 在接下来的一年内会有国家脱欧吗?

从上述例子中我们可以看出,该计划主要关注国际大事。重要的是,回答这些问题引发了许多与日常生活更贴近的预测问题。比如一位律师被问到客户是否会胜诉,或是一个电视工作室被问到某个节目提案是否会大受欢迎,这些问题就涉及了预测技巧。泰特洛克和他的同事想知道是否有人尤其擅长预测,预测的能力能否习得或得到提高。

为了理解这些核心发现,我们需要解释一下泰特洛克和他的团队评估预测者时所采用方法的一些关键点。首先,他们使用的预测问题数量很大,而不只是一个或几个,因为那样的话,成功或失败可能全凭运气。如果你预测你最喜欢的队伍将赢得下一场比赛,而且它确实赢了,你也不一定是一个好的预测者。也许你总是预测你最喜欢的队伍会赢,如果这是你的策略,而他们只赢了一半的比赛,那么你的预测能力就不能算是特别厉害。基于这方面的考虑,为了减少运气的作用,研究人员验证了参与者在大量预测中的平均表现。

其次,研究人员要求参与者对事件发生的概率进行预测,而不是仅仅给出“会发生”或“不会发生”这种非此即彼的答案。对许多人来说,预测就是做是非题——站这方或者站那方。然而,考虑到我们在客观上对未来事件是无法知晓的,预测它们发生的概率才是更明智的选择。如果有人在2016年说“希拉里·克林顿有70%的可能性当选总统”,那他不一定是个糟糕的预测者。确切地说,有70%的概率会发生的事情仍然存在30%的不会发生的可能性。要知道预测者的水平高低,我们应该看他们估计的概率是否符合现实。假设一位名叫玛格丽特的预测者说,500个不同的事件发生的可能性为60%,结果其中300个真的发生了,那么我们就可以得出结论:玛格丽特的置信度被校准得很好。良好的校准是良好预测的前提之一。

再次,泰特洛克及其同事又对实验进行了改进,他们不仅要求预测者对一个事件是否会在12个月内发生做出一个概率估计,还让预测者根据新的信息不断修改自己的预测。假设你在2016年曾估计,英国在2019年底前脱欧的可能性只有30%,后来,新的民意调查结果显示,“脱欧”的选票持续增加,这时,你很可能会把你的预测值提高。公投结果公布后,我们仍然无法确定英国是否会在公布的时间内脱欧,但看起来可能性肯定会大得多。(事实上,英国已在2020年正式脱欧。)

泰特洛克和他的同事允许预测者根据新出现的信息更新预测,为了便于记分,他们把每次更新都视为一个新的预测。通过这种方式,良好判断计划的参与者被激励去密切关注新闻并不断更新他们的预测。这种方法反映出人们期望企业和政府预测人员也能够根据新的信息更新预测,尽管后者有可能因为改变主意而遭到批评。对这种批评有个非常常见的回应,有人认为它出自经济学家约翰·梅纳德·凯恩斯(John Maynard Keynes):“当事实改变时,我改变了主意。你又能怎样?”

最后,为了给预测者的表现打分,良好判断计划使用了格伦·W.布赖尔(Glenn W. Brier)于1950年研发的系统。该系统被称为“布赖尔分数”(Brier scores),可以测量人们的预测值和实际值之间的差距。

布赖尔分数是一种巧妙的方法,它可以绕过一个与概率预测相关的普遍存在的问题:预测者通过避免采取大胆的立场来对自己的预测做两手准备。再想想玛格丽特的例子,在我们的描述中她是一个校准效果良好的预测者,因为她将500个事件的发生率定为60%,其中300个事件确实发生了。这个结果可能没有看上去那么厉害。如果玛格丽特是一个天气预报员,她总是预测有60%的可能性下雨,而且500天中有300天下雨,那么玛格丽特的预测是很准的,但也是无用的,因为玛格丽特其实是在告诉你,你可能每天都要带把伞以防万一。拿她和尼古拉斯做个比较,尼古拉斯预测有300天下雨的概率是100%,有200天下雨的概率是0。尼古拉斯和玛格丽特有同样完美的校准:这两位预报员都预测有X%的日子会下雨,且实际也正是如此,但显然尼古拉斯的预测更有价值:他没有为自己的预测做两手准备,而是明确地告诉你是否应该带伞。从技术上讲,尼古拉斯的判断除了校准效果好外,还有很高的辨析度。

布赖尔分数会对准确的校准和准确的辨析度打出高分。为了得高分,你不仅要在平均水平上是正确的(即校准效果良好),而且要能够表明立场,区分不同的预测(即具有高分辨率)。布赖尔分数以均方误差的逻辑为基础,分数越低越好——0分就是完美。

我们已经了解了评分机制,那么良好判断计划的志愿者表现如何呢?其中一个主要的发现是,绝大多数志愿者的表现都很差,但是有2%的人表现突出。前面说过,泰特洛克称这些表现良好的人为超级预测者。他们几乎从不犯错,他们的预测明显高于随机水平。值得注意的是,一位政府官员表示,这些人的表现明显“好于能够阅读情报和其他秘密数据的情报界分析师的平均水平”。这个类比值得我们反思,情报界的分析专家受过训练,能够做出准确的预测,而且,他们还可以了解机密信息,然而,他们的表现却比不上超级预测者

永久测试版:一个特殊的思维循环

超级预测者为何如此优秀?与我们在第18章中的论述一致,我们可以合理地推测他们异常聪明。这种推测并没有错。在GMA测试中,超级预测者在良好判断计划中的表现比普通志愿者更好,而普通志愿者的成绩已经明显高于平均水平。但差别并不总是那么大,许多在智力测试中表现非常好的志愿者并没有成为超级预测者。除了常规智力,我们可以合理地预期超级预测者在数学方面的能力异常出色。他们的确如此。但他们真正的优势不是数学天赋,而是能够轻松自如地应用分析思维和概率思维。

想一想超级预测者对问题进行组织和分解的意愿和能力。他们不会对一个国家是否会退出欧盟、一场战争是否会在某地爆发这样的问题形成一个整体判断,而是将其分解为几个组成部分。他们会问:“什么情况下答案才是肯定的?什么情况下答案是否定的?”他们会问并试图回答一系列辅助问题,而不是给出一种直觉或整体的预感。

超级预测者也擅长从外部视角看问题,他们非常关心基准概率。正如第13章中对迈克尔·甘巴迪问题的阐述,你在关注甘巴迪的个人资料的细节之前,了解一下普通CEO在两年内被解雇或辞职的概率是很有帮助的。超级预测者会系统性地寻找基准概率,当被问及两个国家次年是否会因边境争端而发生武装冲突时,超级预测者们并不只关注或立即去关注这两个国家目前是否相处融洽。根据他们读到的新闻和分析,他们可能对此有一定的直观感受,但他们知道,对某件事情的直觉往往不可靠。相反,他们一开始会去寻找一个基准概率:他们会询问过去的边界争端升级为武装冲突的频率。如果这样的冲突很少发生,超级预测者将首先考虑这一事实,再去了解两国局势的详细信息。

简而言之,超级预测者的与众不同之处不在于他们智力过人,而在于他们明白如何运用智慧。他们运用智慧的技能反映了我们在第18章中描述的那种可能产生更好判断的认知风格,尤其是高水平的“积极开放性思维”。回想一下关于积极开放性思维的测试:它包括“人们应该考虑与他们的看法相悖的证据”和“关注与你意见不同的人比关注那些与你意见一致的人更有用”。显然,在这项测试中得分很高的人在新的信息出现时会大大方方地更新自己的判断,而不会反应过度。

为了描述超级预测者的思维方式,泰特洛克使用了“永久测试版”(perpetual beta)的说法。这是一个程序员常会使用的术语,指的是一个不打算在最终版本中发布,却被无休止地使用、分析和改进的程序。泰特洛克发现:跻身超级预测者行列的最有力的预测因素是“永久测试版”,即人们致力于更新看法和提高自我完善的程度。正如泰特洛克所说:“超级预测者之所以如此优秀,不在于他们是谁,而在于他们做了什么——艰苦的研究工作,仔细的思考和自我批判,对其他观点的收集和汇总,细微的判断和不懈的更新。”他们喜欢一个特殊的思维循环:尝试,失败,分析,调整,再试一次。

预测中的噪声和偏差

此时,你可能会想,人们可以被训练成超级预测者,或者至少变得更像一位超级预测者。事实上,泰特洛克及其合作者正在为此而努力。他们做的工作可以被视作了解“超级预测者为何表现如此出色,以及如何让他们更出色”的第二个阶段。

在一项重要的研究中,泰特洛克和他的团队将普通预测者随机分为3组,来测试不同干预措施对其后续判断品质的影响。这些干预措施恰好对应我们描述的改善判断的3种策略。

· 培训:一些预测者完成了一个概率推理的课程,以期提升他们的预测能力。在这个课程中,预测者们了解了各种偏差(包括忽视基准概率、过分自信和证实性偏差)、对不同来源的多个预测取平均值的重要性,并将参照类别纳入考量。

· 团队合作(一种汇总判断的形式):让一些预测者组成团队,这样一来,他们就可以看到彼此的预测,并能够进行讨论。团队合作可以通过鼓励预测者应对相反的论点、保持积极开放的思维来提高准确性。

· 甄选:对所有预测者的准确度进行评分,在年终时,排名前2%的人被指定为超级预测者,并有机会在接下来的一年里与精英团队合作。

事实证明,这3种干预措施都非常有效,从某种意义上说,它们提高了人们的布赖尔分数,而且我们发现训练是有效的,团队合作更有效,甄选的效果最优。

这一重要发现证实了汇总判断和选择优秀判断者的价值,但这并不是全部。有了关于每次干预效果的数据,泰特洛克和梅勒斯的合作者维莱·萨托帕(Ville Satopää)开发了一种复杂的统计技术,以梳理每一种干预措施究竟是如何改善预测的。他推断,从原则上讲,一些预测者的表现比其他人更好或更差的主要原因有3个:

· 他们可以更熟练地发现和分析环境中与自己要做出的预测相关的数据,这也说明了信息的重要性。

· 一些预测者可能总倾向于错误地高估或低估预测的真实值。如果在成百上千的预测中,你在整体上高估或低估了发生某种变化的可能性,那么可以说,你受到了某种形式的偏差的影响,要么是倾向于支持改变的偏差,要么是倾向于保持稳定的偏差。

· 一些预测者可能不太容易受到噪声或随机误差的影响。正如在任何判断中一样,当我们进行预测时,噪声可能有许多触发因素;预测者可能对某条新闻反应过度(这是我们称之为模式噪声的一个例子),可能会受到情境噪声的影响,还可能在使用概率量尺时产生噪声。所有这些误差(以及很多其他误差)的大小和方向都是不可预测的。

萨托帕、泰特洛克、梅勒斯及其同事马拉特·萨利霍夫(Marat Salikhov)称他们的模型为BIN预测模型,BIN是Bias(偏差)、Information(信息)、Noise(噪声)这三个单词首字母的合称。他们测量了这三种因素在多大程度上提升了三种干预措施效果。

他们的答案很简单:这三种干预措施主要是通过减少噪声起作用的。正如研究人员所说:“干预措施提高准确性的主要手段是抑制判断中的随机误差的出现,然而,训练干预的初衷是减少偏差。”

鉴于训练的目的是减少偏差,一个不太出色的预测者会预测,减少偏差是培训的主要效果。然而,培训是通过减少噪声来起作用的。这种奇特的现象很容易解释。泰特洛克的训练的主要目的是对抗心理偏差。我们现在已经知道,心理偏差并不总是会造成统计偏差。当心理偏差以不同的方式影响不同个体的不同判断时,就会产生噪声。很明显,这里的情况就是这样的,因为所预测的事件是多种多样的。由于主题不同,同样的偏差会导致预测者反应过度或反应不足。我们不要认为他们会产生统计偏差,即预测者相信事件会发生或不会发生的普遍倾向。因此,培训预测者克服他们的心理偏差是有效的——通过减少噪声的方式。

团队合作对减少噪声有相当大的作用,同时也显著提高了团队提取信息的能力。这一结果与汇总的逻辑一致:几个人协同工作比一个人更善于发现重要信息。如果爱丽丝和布莱恩一起工作,爱丽丝发现了布莱恩错过的信号,那么他们进行联合预测会更好。在团队中工作时,超级预测者似乎能够避免群体极化和信息级联的危险。相反,他们会汇总不同个体的数据和想法,并以积极开放的方式充分利用综合的信息。萨托帕和他的同事解释了这一优势:“与培训方式不同的是,通过团队合作……预测者可以利用这些信息。”

甄选的总体效果最好,一些改进源于更好地利用了信息。超级预测者比其他人更善于发现相关信息,这可能是因为他们比一般参与者更聪明、更有动力、对做出此类预测更有经验。但甄选的主要作用还是减少噪声。超级预测者比普通人,甚至比受过训练的团队产生的噪声更少。这一发现也让萨托帕和其他研究人员大吃一惊:“超级预测者”的成功主要归功于他们在控制测量误差方面的出色能力,而不是其他人无法复制的对新闻的透彻解读。

甄选与汇总的有效之处

超级预测项目的成功突出了两种决策卫生策略的价值:甄选(超级预测者都超级棒)和汇总(预测者组成团队进行合作时表现更好)。这两种策略可以被广泛地应用在许多判断过程中。只要有可能,你应该通过组建业务能力出众且能力互补的判断者团队(由预测者、投资专家、招聘人员组成)来实现战略性合作。

到目前为止,我们已经考虑了通过对多个独立判断取平均值的方式来提高精确度,就像在群体智慧实验中一样。对高准确性判断者的评估进行汇总将进一步提高判断的准确性。通过汇总既独立又互补的判断,我们可以获得准确度上的进一步提高。试想有4个人是一场犯罪行为的目击证人(确保他们不会相互影响至关重要),他们从4个不同的角度目击了犯罪行为,那么将他们提供的信息进行汇总后其质量会好很多。

组建一个专业团队来共同完成判断任务,类似于组建一套综合测试来预测候选人未来在学校或工作中的表现。该任务的标准工具是多元回归(见第9章),它通过依次选择变量来执行。首先选择的是最能预测结果的第一个测试,然而,下一个测试不一定是第二有效的。相反,第二个测试提供了有效且与第一个测试无关的信息,为第一个测试增加了最大的预测力。例如,假设你有两个心理素质测验,其与未来的表现的相关系数分别为0.5和0.45,还有一个人格测验,其与未来表现的相关系数只有0.3,但与心理素质测验不相关。最佳的解决方案是首先选择更有效的那个心理素质测验,然后选择人格测验,因为这样会带来更多的新信息。

同样的道理,如果你要组建一个判断者团队,那么你当然应该先挑选最好的判断者。接下来,选择一个判断能力中等却能给团队带来一些新技能的人,而不是与第一个人高度相似且更善于判断的人,这样做可能效果更好。以这种方式组成的团队会更优秀,因为当不同个体的判断彼此不相关时,汇总判断的有效性会比判断存在冗余时提高得更快。在这样的团队中,模式噪声相对较高,因为个人对于每个案例的判断都会有所不同。矛盾的是,有噪声的群体的平均判断水平比高度一致的群体的平均判断水平更高。

我们需要注意的一个重点是:无论多样性如何,只有在判断真正彼此独立的情况下,对判断进行汇总才能减少噪声。正如我们在讨论群体中的噪声时所强调的,群体审议过程中增加的偏差往往比消除的噪声更多。一个组织想要利用多样性的力量,那它必须愉快地接受团队成员独立做出判断时产生的分歧。激发和汇总既独立又多样的判断往往是最简单、最便宜且适用范围最广的决策卫生策略。