同步阅读进度,多语言翻译,过滤屏幕蓝光,评论分享,更多完整功能,更好读书体验,试试 阅读 ‧ 电子书库
常态谷:事情虽无法预测,但可以被理解
现在我们来考虑一个更大的问题:在这个世界上,有些问题容易解决,有些问题却充满了客观无知,那我们应如何自处呢?毕竟,在存在很严重的客观无知的情况下,我们很快就能意识到,用水晶球来预测未来是徒劳的,但我们通常并不会对这个世界产生这种体验。相反,正如上一章所提到的,我们一直在基于少量的有用信息来对未来做出大胆预测。在本章中,我们将讨论一种普遍存在的错误信念:事件虽然无法预测,却可以被理解。
这个信念意味着什么呢?我们从两个方面来讨论这一问题:一个是社会科学研究,另一个是日常生活中的经验。
预测生活轨迹2020年,由普林斯顿大学社会学教授萨拉·麦克拉纳汉(Sara McLanahan)和马修·萨尔加尼克领衔的112名研究人员在《美国国家科学院院刊》(Proceedings of the National Academy of Science)上发表了一篇非同寻常的论文。他们想弄清楚,社会科学家对“社会脆弱家庭”(socially fragile families)的生活轨迹究竟有多了解。根据掌握的信息,社会科学家预测某个家庭将会发生的事件时,准确性如何呢?更具体地说,使用社会科学家通常在研究中收集的信息,来预测人们在日常生活中可能发生的事件,专家们的准确性究竟有多高?在我们看来,这项研究的目的是测量在社会科学家完成数据收集工作后,对脆弱家庭生活中可能发生的事件进行预测时还存在多少客观无知。
研究人员的资料来源于“脆弱家庭和儿童福利研究”(Fragile Families and Child Wellbeing Study)。该研究是一项大规模的长期研究,追踪调查了儿童从出生到15岁的生活轨迹。这个庞大的数据库包含了5000多名儿童的家庭情况,每个家庭都有数千条信息。这些儿童大多是由美国大城市的未婚父母生下的。收集的数据信息包括孩子祖父母的教育程度和就业情况、所有家庭成员的详细信息,如健康状况、社会经济地位指数、各种问卷信息、认知能力和性格特征等。这项研究提供了一个宝贵的数据库,社会科学家已经在很充分地利用它来进行研究:根据这些关于脆弱家庭的研究数据,他们撰写了750余篇学术论文,其中很多都使用了儿童及其家庭背景的数据来解释这些孩子日后的生活表现,如高中成绩、犯罪记录等。
普林斯顿大学的研究团队所做的研究是,基于儿童早期的数据来预测他们15岁时可能出现的6种结果,包括是否流离失所、GPA以及家境的评估等。研究者采用了所谓的“共同任务方法”(common task method),他们邀请了众多研究团队进行比赛,让这些研究团队基于“脆弱家庭”研究中收集的大量数据来预测6种结果,看谁预测得更准确。这种比赛在社会科学领域是一件新鲜事,在计算机科学领域却很常见。计算机科学领域经常会有组织请一些团队来参加比赛,完成诸如用机器翻译一段标准化的文字或从大量照片中识别动物图片的任务。获胜团队在比赛中所取得的成就定义了当时的技术水平,而且通常会在下一次比赛时被其他团队超越。社会科学领域的预测任务依靠的并不是技术的迅速发展,而是使用比赛中最准确的预测作为衡量结果可预测性的指标。这种做法是合理的。换句话说,无法预测的部分就是客观无知的残留量。
这一挑战引起了诸多研究人员的兴趣,报名的参赛者来自各个国家。最终的报告选取了160个高质量研究团队的结果。入选的参赛者大多自称数据科学家,并且在预测时使用了机器学习算法。
在比赛的第一阶段,参赛团队可以使用一半样本对应的所有数据,其中也包括6种结果。他们会用这一“训练数据”训练预测算法,然后将算法应用于另一半样本数据。研究人员使用均方误差来衡量预测准确性,即每个案例的预测误差是实际结果与算法预测结果之差的平方。
最终获胜的模型准确度如何呢?基于海量数据集训练得到的复杂机器学习算法确实比简单线性模型的预测好,并且超过人类的判断。但是人工智能模型不比非常简单的模型好多少,预测的准确性仍然很低。在预测“流离失所”这一事件的概率时,最佳模型的相关系数仅为0.22(PC=57%),对其他事件的预测也获得了类似的结果。比如,对抚养人是否失业或是否接受工作培训的预测,以及对孩子在“毅力”这一维度上自我评分的预测,与实际结果的相关系数为0.17~0.24(PC为55%~58%)。
在这6种结果变量中,2个是整合变量,它们的可预测性会更高一些:对儿童的GPA进行预测,其相关系数为0.44(PC=65%);对儿童近12个月的物质贫困指数进行预测,其相关系数为0.48(PC=66%)。后一个指标是由11个问题的答案整合而来,包括“你曾经挨过饿吗”“你家的电话停机了吗”等。众所周知,整合指标一般比单一指标更具预测力,也更具可预测性。该项挑战的主要结论是:海量预测信息不足以预测人们生活中可能发生的单一事件,即使是整合变量,其预测力也非常有限。
这项研究中所报告的结果非常典型,社会科学家报告的大部分相关系数也都在这个范围内。一项社会心理学方面的回顾性研究涵盖了100多年来的25 000项研究,涉及800万名被试,该研究得出的结论是:“社会心理学效应所产生的相关系数(γ值)通常等于0.21。”在人体测量中常会出现更高的相关系数,比如我们之前提到的,成人身高与脚的尺码之间的相关系数为0.6,这种高相关性在社会科学领域很少见。对行为和认知科学的708项研究进行的一项回顾性研究发现,只有3%的研究报告的相关系数大于0.5。
如果你经常阅读那些“统计上显著”或“高度显著”的研究报告,那么如此低的相关系数可能会让你大吃一惊。统计学术语通常会误导读者,“显著”则是最具误导性的说法之一。当一项发现被描述为“显著”时,我们不应该下结论说这一结果的效应很强,它仅仅说明这项发现不大可能只是随机的结果。当样本量足够大时,相关性可能非常“显著”,但仍微不足道。
在关于这项挑战赛的研究中,对单一结果进行预测的有限性传达出一条令人不安的信息,那就是理解和预测之间存在差别。脆弱家庭的研究资料被认为是社会科学的宝库,确实如此,我们已经看到这些数据被广泛地应用于科学研究中,进行这些研究的学者们坚信,他们的工作将促进人们对脆弱家庭生活的理解。然而,这种促进与详尽地预测个人生活中可能发生的事件的能力无法相提并论。“脆弱家庭”挑战赛研究的发起者在论文摘要中郑重地告诫读者:“研究人员必须认识到,虽然他们了解脆弱家庭的生活轨迹,但每一项预测都不够准确。”
客观无知,理解和预测的上限我们需要再次阐明这一悲观结论背后的逻辑。当“脆弱家庭”挑战赛的研究者们将“理解”等同于“预测”,或是将“预测的缺失”等同于“理解的缺失”时,他们所谓的理解就是具有特定含义的。然而,这个词还有其他的含义:当你说你理解某一数学概念或理解“爱是什么”时,你想说的可能不是你有预测能力这件事。
在社会科学研究以及大多数日常对话中,如果有人声称理解某事,他指的是理解导致该事件发生的原因。“脆弱家庭”研究中,社会科学家们收集并分析了数千个变量,现在他们想要找出观察到的结果的成因。如果医生了解病人生的是什么病,他们就会认为自己诊断出的病理就是所观察到的症状的成因。理解就是描述因果关系,而预测能力就是衡量这一因果关系是否成立的指标。相关系数这一被用于衡量预测准确性的指标,衡量的是有多少因果关系是我们可以解释的。
如果你接触过基础统计学,并熟知“相关性并不代表因果性”这一被反复提及的警告语的话,你可能不会对前一段的最后一句话感到惊讶。举个例子,请你想一想儿童鞋子的尺码和儿童数学能力之间的相关性:很显然,其中的一个变量与另一个变量没有因果性。这种相关性源于:鞋的尺码和数学能力都会随着儿童年龄的增长而增加。这个相关性是真实存在的,它支持这样的预测:如果知道一个孩子的脚比较大,那么你可以预测他比那些脚较小的孩子的数学能力更强,但你不应该从这种相关性中推导出因果性。
我们也要知道,尽管相关性并不代表因果性,因果性却意味着存在相关性,哪里有因果性,哪里就有相关性。如果你发现成年人的年龄与脚的尺码之间没有相关性,那么你可以放心大胆地得出结论:青春期过后,年龄的增长不会使脚变大,你应该寻找其他可能导致人们脚码差异的原因。
简而言之,存在因果性就意味着存在相关性。当存在因果性时,我们应该能做出预测,并且这一相关性(即预测的准确性)可以衡量我们究竟在多大程度上理解了这一因果性。普林斯顿大学研究人员的结论是:社会科学家对诸如“流离失所”这类单一事件的预测力的相关系数为0.22,这表明了他们对这些家庭的生活轨迹的理解程度。客观无知不仅为我们的预测力设定了上限,也限制了我们的理解力。
那么,专业人士满怀信心地说理解自己所在的领域,这意味着什么?他们如何阐明所观察到的现象背后的原因,又是如何做出胸有成竹的预测的?为什么专业人士甚至所有人,似乎都会低估我们关于世界的客观无知?
如果在阅读本章的第一节时你就想知道“是什么原因导致了脆弱家庭中的孩子流离失所或其他一些结果”,那么你与研究人员的想法是一样的。你使用了统计思维(statistical thinking):你关注了一些总体变量,如脆弱家庭的总量等;你也关注了描述总体变量的统计指标,如平均值、方差、相关性等。也就是说,你并没有专注于个别的案例。
有一种思维模式会自发地出现在我们的脑海里,它就是因果思维(casual thinking)。因果思维会创造出故事,故事中特定的人、事、物之间会相互影响。要想体验因果思维,你可以将自己想象成一名社工,你追踪调查了很多贫困家庭。你刚刚听说其中一个家庭的人目前无家可归,比如琼斯一家。你对这一消息的反应取决于你对琼斯一家的了解有多少。事情可能是这样的:这个家庭的经济支柱洁西卡·琼斯(Jessica Jones)几个月前失业了,而且找不到工作,从那时起,她就只能付一部分房租,她多次向大楼管理员求情,甚至请你帮忙求情(虽然你出面了,但大楼管理员无动于衷)。在这种情况下,琼斯一家的遭遇虽然很可怜,但我们并不会感到意外。事实上,这就好像是一连串事件的必然结果一样,一场“难以避免”的悲剧终会发生。
如果我们认同这是“难以避免”的事情,就忽略了这件事本可以轻易被改变,忽略了在人生的每一个岔路口,命运都有可能走向不同的方向。琼斯说不定可以保住工作;她也有可能很快找到另一份工作;或许亲戚帮助了她;你身为社工,或许为他们一家提供了更多帮助;大楼管理员或许更体谅他们一家,并多宽限了几周时间,以便琼斯早日找到工作并交上房租。
如果已知了结局,这些可能发生的结果将和实际结果一样,都不会令人感到惊讶。无论结果如何(琼斯一家是否被驱赶),一旦已经发生了,因果思维就会让我们觉得它完全可以解释,甚至可被预测。
理解常态谷前文所述的这种现象有心理学依据。一些事会令人感到惊讶,比如一场致命的流行病暴发、一只声誉卓著的对冲基金被证明是骗局等。我们每个人在生活中,都会遇到一些令人意想不到的事情,比如与刚认识不久的人相恋、年轻的兄弟姐妹突然去世、继承了一笔意想不到的遗产等。而另一些事则是你完全可以预料到的,比如二年级学生会在固定的时间放学回家。
大多数人的经验都介于这两个极端之间,我们有时完全可以预料到某件事的发生,有时则完全无法预料。大多数事情发生在一个宽阔的“常态谷”(valley of the normal)中,那里的事情既不是完全可以预料的,也不是完全预料不到的。比如,此刻你无法预料下一段的内容,如果我们突然写了一段土耳其文,可能会让你大吃一惊。但是我们所讨论的内容如果没有偏离主题,你就不会感到惊讶。
在常态谷中,事情的发展和琼斯一家遭到驱赶一样,事后看似乎都是很平常的,尽管我们没有预料到它们会发生,也无法进行预测。这是因为理解现实的过程是回溯性的,当那些我们完全未预料到的事件(如琼斯一家遭到驱赶)发生时,我们会自动从记忆中搜索一个可能的原因,如萧条的就业市场、大楼管理员的不近人情等。找到合适的理由后,搜索就会停止。如果相反的结果发生了,这一搜索过程将同样找到令人信服的原因,如琼斯的坚强、管理员的通情达理等。
上述例子表明,通常情况下,许多事件从表面上看都是不言而喻的。你可能已经注意到,上述这两个版本中,大楼管理员似乎并非同一个人:第一个是无情的,第二个是友善的。无论如何,了解这个经理的唯一线索就是看他的所作所为。基于我们当下对他的了解,他的举止看起来是合乎逻辑的。正是因为事件已经发生了,你才能明白它发生的原因。
当你以这种方式解释那些“意料之外,但情理之中”的结果时,你最终会得到一个有意义的解释。这就是我们所谓的“理解”了故事,这也解释了为什么现实在事后看起来是可预测的,因为该事件在发生时便解释了它发生的原因,于是我们产生了一种错觉,认为它是可以预测的。
我们对世界的理解,取决于我们编造故事来解释我们所观察到的事件的能力。并且,我们几乎总是能成功地找到原因,因为我们可以从无数的事实和信念中搜寻原因。例如,常听晚间新闻的人都知道,很少有无法解释的股市大波动。相同的新闻事件既可以用于解释股票指数的下跌(投资人因这一波动消息而担忧),也可以用于解释其上涨(投资人依然持乐观态度)。
如果找不到一个显而易见的原因,我们会在第一时间创造一个解释,以便将我们构建的世界模型中的空白填补上。这就是我们推断出未知事实的方式,比如在琼斯的例子中推断大楼管理员是一个友善的人。只有当我们的世界模型无法调整,无法对某一结果做出解释时,我们才会将这一结果归类为“令人惊讶的”,并开始为它寻求更为复杂的解释。只有当常用的后见之明不起作用时,我们才会真正感到惊讶。
这种持续对现实世界进行的因果解释就是我们“理解”世界的方式,我们对人生的理解,由对常态谷中不断产生的事情的事后解释所组成。这种感觉从根本上讲是有因果性的:新事件一旦被人们所知,其他可能性就会被消除——编故事的过程几乎消除了所有的不确定性。正如我们在那些“后见之明”的经典研究中了解到的:即使主观上的不确定性存在过一段时间,当不确定性消失后,对不确定性的记忆也将消失不见。
内部视角和外部视角我们来对比一下统计模式和因果模式这两种思考事件的方式。因果模式通过将事件实时划分为正常事件或异常事件,为我们节省了很多精力。在异常事件的迅速动员下,我们会从环境和记忆中努力搜索相关信息。主动的期待,即专心地等待某一事件发生也需要耗费心力。相反,常态谷中的事件发展过程,几乎不需要我们耗费心理成本。你在路上遇见邻居时,他可能会向你微笑,或者看起来心事重重,因此只是冲你礼貌地点点头,如果这两种情况过去经常发生,那么它们就不会引起你的关注。如果他的笑容异常灿烂或点头过于敷衍,你很可能就会从自己的记忆中寻找可能的原因。因果思维避免耗费不必要的心力,同时保留了发现异常事件时所需的警惕性。
与因果思维不同,统计思维通常是费力的,它需要的注意力资源只有系统2思维(缓慢而审慎的思维模式)发挥作用时才能满足。除了基础水平外,统计思维还需要经过专门的培训才能掌握。这种思维方式基于整体的信息,将个别案例视为更大类别中的一个实例。它不会把琼斯一家的遭遇看作由一系列特定事件导致的必然结果,而是观察与琼斯一家具有相同预测性特征的先例,再判断在统计上这是不是有可能发生的结果。
这两种观点之间的区别是本书反复出现的议题。依赖单一案例进行因果思维是预测误差的重要来源,采用统计思维,也称为外部视角(outside view),是避免这些误差的方法之一。
我们需要强调一点:因果模式对我们来说自然得多,即使是那些原本基于统计思维的解释,也很容易转换成基于因果思维的解释。想一想“他们之所以失败是因为缺乏经验”或“他们之所以成功是因为有一位出色的领导者”这类表述,你很容易就能想到反例:有些经验不足的团队成功了,而拥有杰出领导者的团队却失败了。经验和才华与成功之间的相关性至多是中等水平,甚至可能更低,然而我们很容易做出这种因果性归因。只要因果性是合理的,尽管相关性很小,我们的思维也很容易将相关性转化为因果性。比如,杰出的领导者被视作成功的一个原因,而经验不足则是失败的一个原因,这样的解释令人满意。
如果不想放弃对世界的理解,我们或许要不可避免地依赖有瑕疵的解释。然而因果思维和自以为了解过去的错觉,都会导致我们在预测未来时过分自信。我们将看到,偏好因果思维会使人们忽略噪声这一误差来源,因为噪声从根本上说是一个统计学概念。
尽管整个世界的可预测性比我们认为的要低,但因果思维帮助我们了解了一个比我们想象中还难以预测的世界,这也解释了为什么我们会认为世界比实际情况更具可预测性。在常态谷中,没有惊喜,也没有不一致,未来似乎与过去一样是可预测的。人们既“听”不到噪声,也“看”不到噪声。
请支持我们,让我们可以支付服务器费用。
使用微信支付打赏