第26章
减少噪声的成本

每当我们建议人们消除噪声时,他们可能会以成本过高为由进行反对,并认为在极端情况下,减少噪声根本不可能。我们已经在商业、教育、政府以及其他领域听到过这种反对意见,这种观点虽然有一定的合理性,但言过其实了,或者只不过是一个借口。

为了证明我们的这种反对意见更有说服力,举一个高中老师为文章评分的例子。有位高中老师每星期都要对学生撰写的25篇文章进行评分。如果这位老师在每篇文章上花费的时间不超过15分钟,那么评分会由于存在噪声而变得不准确和不公平。老师可能需要考虑使用一点决策卫生策略来减少噪声,比如可以邀请另一位老师给这些文章评分。这样一来,两位老师都需要把每篇论文阅读一遍。再比如,这位老师在阅读每篇文章时,可以多花一些时间,或者构建相对复杂的评估过程,也可以按不同的顺序多次阅读这些文章,这几种方法同样可以达到提升评分品质的效果。这位老师还可以制定一个详细的评分指南清单,这也能起到一定的作用。此外,每天在固定时间阅读学生的文章也可以减少情境噪声。

但是,如果这位老师以为自己的判断十分精准,不会受到任何噪声的干扰,那就完全没有必要做上述那些事了,因为根本没必要这么麻烦。这位老师可能会认为,没必要使用清单或请同事帮忙评阅。想要知道这是不是小题大做,就需要对以下问题进行严格的分析:教师评分的准确性会提高多少?更为准确的评分到底有多重要?减少噪声需要花费多少时间和金钱成本?我们很容易想象在减少噪声方面需要的投入的上限,我们也很清楚,如果这些文章是更低年级学生或者更高年级学生写的,那么投入的上限也应该有所不同。显而易见的是,离大学录取越近,噪声带来的风险就越大。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

各种私人机构和公共部门也会在各种复杂的情境中进行这种基础性分析,因此拒绝采取某些减少噪声的策略。对于某些疾病,医院和医生可能很难制定出可以消除变异性的简单指南。在医疗诊断意见存在分歧的情况下,尽可能减少噪声显得尤为重要,因为这样可以挽救生命。但是,减少噪声的可行性和成本也需要考虑。某些检查可以消除诊断中的噪声,但是如果该检查是侵入式的、危险的且费用高昂,而诊断中的变异性很小且只会导致轻微的不良后果,那就没必要让所有医生都要求病人去做这项检查。

对员工的评估很少涉及生死,但噪声会导致员工之间的不平等,并使公司付出高昂的代价。我们已经看到,需要考虑减少噪声的可行性。减少噪声的努力值得吗?明显误判的案件可能会引起人们的关注,并造成令人尴尬、不体面甚至糟糕的后果。一个机构可能会认为事无巨细地纠正每一个步骤并不划算,因此有时候其结论是短视的、自私的、错误的,甚至可能会带来灾难性的后果。这样看来,某种形式的决策卫生策略的确值得一试。不过,“减少噪声代价太大以至于不值得这么做”的看法并非总是错误的。

简而言之,我们需要权衡减少噪声的成本与益处,这也是进行噪声审查如此重要的原因之一。在许多情况下,通过噪声审查我们发现,噪声造成了极大的不公平或者高昂的代价,甚至两种状况同时存在,这时,减少噪声就势在必行了。

噪声越少,错误越多?

另外一种反对意见是:某些减少噪声的措施本身可能会引发大到令人难以忍受的错误。如果减少噪声的工具不太灵敏,那么上述反对意见就更有说服力了,确实,有些减少噪声的措施甚至会增加偏差。如果像脸书(Facebook)或推特(Twitter)这样的社交媒体平台引入一种严格的指南,来删除所有包含粗俗言语的帖子,这样做确实减少了噪声,但也可能将大量原本并不违规的帖子一并删除了。这些假阳性的删除操作会导致有方向性的错误——偏差。

在现实生活中,有很多为了减少人们的自由裁量权和会产生噪声的做法而进行的改革。虽然其中一些改革举措出于良好的动机,但“治疗方法”却比“疾病”更糟糕。经济学家阿尔伯特·赫希曼(Albert Hirschman)在《反动的修辞》(The Rhetoric of Reaction)一书中指出了反对改革的三种常见观点。首先,在某种意义上说,这样的改革可能适得其反,使原本打算解决的问题变得更糟;其次,这样的改革可能是徒劳无功的,根本无济于事;最后,它们可能使其他重要的东西受到威胁。举例来说,有人认为保护工会的努力以及加入工会的权利妨碍了经济增长。适得其反、徒劳无功、构成威胁都可能成为减少噪声的反对意见,而在这三者之中,适得其反和构成威胁这两种说法可能是最有力的。有时候,这些反对意见只是一种说辞,其目的是破坏一项实际上会带来巨大好处的改革。但是,某些减少噪声的策略确实会损害一些重要的东西,也有一些策略可能存在适得其反的风险。

一些反对量刑指南的法官认可上述风险。他们很清楚马文·弗兰克尔法官所做的努力,也没有否认自由裁量权会产生噪声,但他们认为减少自由裁量权会引发更多错误,而不是减少错误。他们引用瓦茨拉夫·哈韦尔(Vaclav Havel)的话并坚称:“我们必须摒弃一种自大的信念,即这个世界仅仅是一个有待解决的谜题、一部等待人们发明操作指令的机器,或是一堆等待输入计算机里的信息,因为这台计算机迟早会给出一个普适的解决方案。”拒绝普适性解决方案的一个原因在于,人们有这样一种坚定的信念——人类面对的状况千差万别,优秀的法官能够应对这些差异。这就意味着要忍受噪声,或至少拒绝某些减少噪声的策略。

在国际象棋游戏程序刚出现时,一家大型航空公司为国际航班乘客提供了国际象棋游戏程序,请乘客与计算机对战。这个游戏程序有几种不同的难度级别。在最低级别中,该游戏程序遵循一条简单的规则:只要有可能,就去将对手的军。这样的游戏程序自然不包含噪声,它每次都按相同的方式落子,并且始终遵循着这条简单的规则。但这个规则会导致大量错误。事实上,这个游戏程序的棋艺很糟,甚至没有太多经验的国际象棋新手也可以击败它。这当然也很重要:乘客能够获胜,会很愉快。

接下来,我们一起来看一下美国某些州所采用的刑事量刑政策,即“三振出局”(three strikes and you’re out)。意思就是,如果一个人犯下了三重重罪,那么他一定会被判终身监禁。这一政策减少了由于随机分配法官所导致的变异性。这项政策的一些拥护者主要是担心水平噪声的影响,以及某些法官可能对惯犯太过仁慈。消除噪声正是“三振出局”立法的核心。

然而,即使“三振出局”政策成功降低了噪声,我们也可以提出合理的反对意见——这一成功背后的代价过高。有些犯下三重重罪的人不应该被判终身监禁:也许他们不是暴力犯罪,也许是他们悲惨的生活处境迫使他们犯罪,也许他们能够改过自新。许多人认为,无视特定情境的终身监禁不仅过于苛刻,还异常死板,因此,持反对意见的人认为采用“三振出局”政策来减少噪声的成本太高。

以“伍德森诉北卡罗来纳州案”为例。在该案件中,美国最高法院裁定,强制性死刑有违美国宪法,不是因为死刑太残忍,而是因为法律就是这样规定的。强制判处死刑纯粹是为了确保判决免受噪声干扰。也就是说,在某些特定情境中,杀人犯必须被处死。美国最高法院说,“刑罚个别化”之所以有存在的必要性,是因为“不考虑罪犯的过往经历和生活习惯,就对同一法律范畴内的每项罪行都处以相同的惩罚,这样的观念已经不再盛行了”。美国最高法院还认为,强制性判处死刑存在一个严重的制度性缺陷:它“没有将被定罪的人视为独特的个体,而是将其视为无差别的群体中的一员,从而盲目地判处了死刑”。

当然,死刑涉及的风险极高,关于司法的分析可以应用于许多其他情境,尽管这些情境大多数与法律无关。评估学生的老师、评估患者的医生、评估雇员的雇主、确定保费的核估员、评估运动员的教练,如果这些人都采用过分刻板的减少噪声的规则,他们很可能会犯错。比如,如果雇主使用简单的规则来评估员工,对其做出提拔或解雇的决定,这些规则可能确实消除了噪声,却忽略了员工绩效的一些重要的考核内容。一个不能考虑各种重要因素、不存在噪声的系统做出的判断可能比依赖个体做出的有噪声的判断更糟糕。

在第27章,我们将以“每个人都是独特的个体,而不是毫无差别的群体中的一员”这一观点为例,来说明以上问题。目前,我们先重点探讨一个相对有些乏味的内容。一些减少噪声的策略会导致太多的错误,就像上文提到的愚蠢的国际象棋游戏程序。

尽管如此,这种反对意见似乎比实际更具说服力。如果一种减少噪声的策略容易导致错误,那么我们要做的不应该是轻易向高噪声水平妥协,而是尝试找到更好的减少噪声的策略。例如,我们可以采用汇总判断的方法,而不是采用愚蠢的法则,或者,我们可以制定明智的而不是愚蠢的指南或规则。从减少噪声的角度,一所大学应只录取考试分数最高的一批人。如果这一规则看起来过于简化,那么学校可以创造一个公式来综合考量高考成绩、在校成绩、年龄、运动表现、家庭背景等。复杂的规则可能更准确,因为它整合了所有的相关因素。同理,医生可以采用复杂的规则对某些疾病进行诊断。专业人士使用的指南和规则并不总是简单或粗糙的,其中一些有助于减少噪声,且不至于产生让人难以忍受的高昂代价(或偏差)。如果指南或规则行不通,也许我们可以引入其他适用于特定情境的决策卫生策略,比如汇总判断,或是像中介评估法那样的结构化的流程。

算法无噪声,但会导致偏差

人们通常在算法的背景下讨论减少噪声的潜在高额成本,因此人们越来越反对有偏差的算法。我们已经看到,算法消除了噪声,因此看起来很有吸引力。事实上,本书的大部分内容都可以算作支持使用算法的证据,因为算法没有噪声。但是,如果使用算法会增加种族或性别歧视,抑或不利于弱势群体,那么减少噪声将得不偿失。

人们普遍担心算法会导致歧视——这无疑是一个很严重的风险。数学家凯茜·奥尼尔(Cathy O’Neil)在《算法霸权》(Weapons of Math Destruction)一书中主张:依靠大数据和借助算法来做决策可能会产生偏见、加剧不平等,甚至威胁民主本身。另一种质疑的声音表示:“存在潜在偏差的数学模型正在重塑我们的生活,而负责开发它们的公司和政府都无意去解决这一问题。”独立新闻调查机构ProPublica称,“替代性制裁的惩罚性罪犯管理分析”(Correctional Offender Management Profiling for Alternative Sanctions)这种广泛用于对惯犯进行风险评估的算法,对少数族裔成员有强烈的偏见。

没有人会怀疑,我们有可能甚至很容易创建出一种无噪声但带有种族主义、性别歧视或其他偏差的算法。如果一种算法直接根据被告的肤色决定是否准许他获得保释,那么其中就存在歧视,这在许多国家是不合法的。将求职者是否可能怀孕纳入算法,则是在歧视女性。在这些案例以及其他案例中,算法能够消除判断中不必要的变异,但也会引发令人难以接受的偏差。

原则上,我们应该能够设计出一种不考虑种族或性别的算法,实际上这也完全可以做到。但有一个更具挑战性且备受关注的问题,那就是即使一个算法并不直接使用性别或种族作为预测因素,也可能会产生歧视,进而导致偏差。

我们说过,算法存在偏差有两个主要原因。首先,无论我们是否有意设计,算法都可能使用与种族或性别高度相关的预测因素。例如,身高和体重与性别相关,人们成长和居住的地区与种族相关。

其次,不同的数据来源可能导致歧视。如果一个算法是基于存在偏差的数据集训练所得,那么它就会产生偏差。例如,用来预测犯罪的“预测性警务”算法,其目的是改善警力的配置。如果现有的犯罪数据反映了某些区域的警力过度部署,或对某些类型犯罪的报案量相对较高,那么由此产生的算法将加剧这种歧视或使其永久化。只要原有的训练数据有偏差,就有可能有意或无意地设计出一种存在歧视的算法。因此,即使算法没有直接考虑种族或性别,它也可能像人类一样存在偏差。事实上,就这一点而言,算法可能更糟:由于消除了噪声,它们可能比人类的判断包含更稳定的偏差。

对于许多人来说,要考虑的一个关键的现实因素是:一种算法是否会对相同的群体产生不同的影响。究竟如何测试这种不同的影响,以及如何确定算法中的歧视、偏差或公平性具体包含哪些因素,这些都是异常复杂难解的问题,也超出了本书的范围。

然而,我们之所以提出这个问题,是因为相对于人类判断,算法还是具有独特的优势的。对于新手而言,我们建议仔细对算法进行评估,以确保其中没有输入不被法律许可的变量,并检测是否存在令人反感的歧视。要让人类个体接受同样的审查非常困难,因为他们的判断往往是不透明的。人们有时会无意中以一种外部观察者(包括法律制度)无法轻易看穿的方式表现出歧视。因此,在某些方面,算法比人类更透明。

毫无疑问,我们需要关注无噪声但有偏差的算法的成本,就像我们需要考虑无噪声但有偏差的规则的成本一样。关键问题是,我们是否可以设计一种在多种重要指标上的表现都优于真实世界中的人类判断的算法,它更准确、噪声更少、没有歧视、非常公正。大量证据表明,在人类选出的多个判定标准组合方面,算法的表现都可以比人类更好。请注意,我们说的是可以,而不是一定。例如,正如第10章所述,在保释决策方面,算法可能比人类法官更准确,也更少产生种族歧视。同样,简历筛选算法可以比人类简历筛选者挑选出更好以及更多样化的人才。

基于这些例子和更多其他的例子,我们可以自然而然地得出一个结论:在充满不确定性的世界中,尽管预测性算法不太可能做到完美,但与通常充满噪声和偏差的人类判断相比,算法远没有那么不完美。算法的优势在于有效性(好的算法几乎总是可以做出更好的预测)和更少的歧视(好的算法比人类判断的偏差更小)。如果算法比人类专家更少犯错,而我们直觉上还是偏爱人类判断,这时候就应该仔细审视一下自己对直觉的执念了。

我们的总体性结论很简单,并且可以延伸至算法之外的主题。确实,减少噪声的策略可能对应高昂的成本,但是在很多情况下,高昂的成本只是一个借口,而不是忍受不公平和噪声的充分理由。当然,减少噪声的努力本身也可能产生误差,并以偏差的形式表现出来。如果是这样,我们就面临一个很严重的问题,但解决方案不应该是放弃减少噪声的努力,而应该是提出更好的方案。