第23章
绩效评估,用基于外部视角的共识框架做出量化判断

让我们从一个练习开始:请选出3个你认识的人,他们可以是你的朋友或同事。请在友善、智慧和勤奋这3种特质上给他们进行1~5分的评分,其中1分是最低分,5分是最高分。现在再请另一个很了解他们的人(这个人可以是你的配偶、好友或者最亲密的同事)用同样的方式对这3个人进行评分。

在某些评估中,你和其他评分者很可能会给出不同的评分,那么出现这种差异的原因是什么呢?你可能会发现,答案在于你们是如何使用量表的,我们称这种量表为水平噪声。也许你认为,需要“特别出众”才能给5分,而另一位评分者则可能认为只需达到“还不错”的水平就能给5分。除此之外,你们之间的差异还有可能是由你们对被评估者的看法不同造成的,例如你们在理解被评估者是否友善以及如何确切地定义美德等问题上存在差异。

现在想象一下,如果要基于你们的评估来确定这3个人能否升职和加薪,并且假设你和另一位评估者是在同一家重视友善、智慧和勤奋的公司工作,你们之间的评分会有差异吗?这种差异会和前面的练习中出现的差异一样大吗?还是更大?不管你的答案是什么,公司的政策和量表上的差异都可能产生噪声,事实上,这种现象在不同组织进行绩效评估时普遍存在。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

绩效评估本质上是一种判断工作

几乎所有大型组织都会定期对员工进行正式的绩效评估,而那些被评估的人并不喜欢这种评估。正如有家报纸的标题所示,“研究发现,基本上每个人都讨厌绩效评估”。我们认为,每个人都知道绩效评估会受偏差和噪声的影响,但是大多数人并不知道其中到底存在多少噪声。

在一个理想化的世界里,评估绩效并不是一个判断工作,因为评估人借助客观事实就足以裁定员工工作表现的好坏。但问题在于,大多数现代组织与经济学鼻祖亚当·斯密(Adam Smith)提到的扣针厂没有什么共同之处。在亚当·斯密提到的扣针厂中,每个工人的产出都可以量化。但对一家公司的首席财务官或研发部主管来说,他们的产出是什么呢?当代知识工作者需要平衡多种工作目标,有时这些目标甚至是互相矛盾的。只关注其中一个目标,在做评估时就可能犯错,导致评估结果不准确,并带来负面的激励效果。例如,医生每天接诊的患者数量是医院生产力的一个重要衡量指标,但你并不希望医生一门心思只关注这一指标,更不会只根据接诊人数对他们进行评估和奖励。也就是说,即使是可量化的绩效指标,也需要放在一定的背景条件下进行评估,例如,评估销售人员的销售额或程序员编写的代码行数时,就要考虑具体情况,因为并非所有客户都同样“难伺候”,也并非所有软件开发项目都一模一样。鉴于这些挑战,我们无法完全根据客观的绩效指标对人们进行评估。因此,以判断为基础的绩效评估无处不在

25%是信号,75%是噪声

有关绩效评估实践的研究文章已经发表了成千上万篇,其中大多数人都发现这些评估充满了噪声。这一发人深省的结论主要是通过对360度绩效评估的研究得出的。这类研究需要多个评估者共同参与,并且基于多个绩效维度对同一个人进行评估。在进行数据分析时我们会发现,这类研究的结果并不理想:真正的差异——个人绩效产生的差异通常不超过总差异的20%~30%,其余70%~80%的差异是系统噪声

这些噪声是从哪里来的?得益于多项关于工作绩效评估变异性的研究,我们现在已经知道,系统噪声的所有成分都在起作用。

在绩效评估的背景下,这些噪声成分是显而易见的。请想象两位评估者:琳恩和玛丽。如果琳恩的评估标准比较宽松,而玛丽的评估标准比较严格,换言之,琳恩对所有人的评分都比玛丽的更高,那么就出现了水平噪声。就像我们在讨论法官判决的案例时所看到的那样,这种噪声可能表示琳恩和玛丽真的对被评估者形成了不同的印象,也可能表示她们对被评估者的印象相同,但使用评估量表的方式存在差异。

现在,如果琳恩要对你进行评估,而且碰巧她对你和你的工作印象极差,她一向宽松的标准可能会与她对你的特殊(负面)的评价相抵消。这就是我们所说的稳定模式——一个特定评估者对特定被评估者的反应,这种模式是琳恩所独有的,这就是模式噪声的来源。

最后要讲的是情境噪声。玛丽可能在填写评估表之前发现有人把她停在停车场的车撞坏了,这让她在做评估时心情极差;琳恩可能刚刚收到了丰厚的奖金,这让她在做评估时心情极好。类似这样的事情当然可能会产生情境噪声。

关于如何将系统噪声分解为水平噪声、模式噪声和情境噪声这三种成分,不同的研究会给出不同的结论。我们肯定可以想明白,为什么不同组织的噪声成分会有所不同。当然所有形式的噪声都是我们不希望存在的。这些研究所传达的基本信息只有一个:大多数绩效评估结果与被评估者的真实绩效之间的关系远非我们想象中那么紧密。正如一篇综述文章中总结的那样:员工真实的工作绩效和对工作绩效进行的评估之间的关系可能很弱,或者说,两者之间的关系还不确定。

此外,组织中的绩效评估之所以无法反映员工的真实绩效,原因有很多。例如,评估者实际上可能不会尽可能准确地评估绩效,但可能会“策略性地”对员工进行评估。一些其他动机可能使评估者故意给员工打高分,例如为了避免煎熬的反馈性谈话(10)为了帮助一个一直在寻求晋升机会的人,甚至只是为了摆脱一个表现不佳的团队成员——该成员需要有良好的评价才可能被调到其他部门。

这些策略性的考虑当然会影响评估,但它们并不是唯一的噪声来源。我们之所以知道这些,全要归功于一种自然实验:仅以研发为目的的360度反馈系统。在这些系统中,受访者被告知他们的反馈并非用于绩效评估,如果评估者真的相信了这种说法,那么这就能防止他们夸大或降低评价。事实证明,研究性评估确实会对反馈产生影响,但系统噪声仍然很高,而且相比于被评估者的实际绩效系统,噪声能够解释更多的变异性。可以看出,即使是纯粹的研究性的反馈机制,评估中也仍然充满噪声。

一个早就发现却没有解决的问题

如果绩效评估系统如此不可靠,那么实施绩效评估的人就应该已经注意到并力图改进这个体系。事实上,在过去的几十年里,众多组织的确对这些评估制度进行了无数次的改革。这些改革也采用了一些我们提出的减少噪声的策略,但在我们看来,人们做得还远远不够。

几乎所有组织都使用汇总策略来减少噪声。人们通常将汇总评估与360度反馈系统相结合,这在20世纪90年代成为一些大公司的标准做法,《人力资源管理》(Human Resources Management)杂志在1993年推出了一期关于360度反馈系统的专刊。

虽然对所有评估者的评估进行平均有助于减少系统噪声,但值得注意的是,360度反馈系统并非是为了解决这个问题而开发的,它的主要目的是测量出一些领导看不到的东西。这个评估系统要求被评估者的同事和下属而不仅仅是其领导参与对他们的绩效评估,这样一来,评估的本质就已经改变了。从理论上讲,这种转变是一种改进,因为这使得人们的工作并不是为了取悦领导。360度反馈的盛行与非固定的、基于项目的组织形式是契合的。

一些证据表明,360度反馈系统是一个有用的工具,因为它可以对客观、可量化的绩效做出预测。然而,这种反馈系统自身也会制造一些问题。计算机的普及使得在反馈系统中添加更多问题变得轻而易举,组织的多重目标以及越来越多的限制也增加了岗位描述的维度,许多反馈问卷变得异常复杂,过度设计的调查问卷比比皆是。例如,有一份调查问卷要求每个评估者对被评估者在11个维度上进行46项评估。通常来说,人们是无法回忆和处理多个被评估者在多维度上准确且相关的表现的,因此,从某种角度来看,这种过于复杂的方法不仅无用,而且有害。我们知道,光环效应意味着看上去相互独立的维度实际上不会被独立对待,对最初几个问题给予一个强烈肯定或否定的评估后,后续问题的答案就会相应地偏向同一个方向。

更重要的是,360度反馈系统的发展成倍地增加了参与反馈的时间成本。中层管理者被要求填写针对各层级同事的几十份调查问卷,这种情况在很多组织中屡见不鲜,有时他们还需要填写针对其他组织中的员工的调查问卷,因为现在许多公司都要求客户、供应商和其他业务合作伙伴提供反馈。即便这样做的出发点是好的,但是当时间有限的评估者们遭受一系列问卷的“轰炸”时,我们就别指望他们能够提供高品质的信息。在这种情况下,减少噪声要付出的代价可能会非常大,这是我们将在第六部分讨论的问题。

最后,360度反馈系统也存在所有绩效评估体系都无法避免的一种通病——悄无声息地出现评估通胀。比如,一家大型工业公司曾观察到,公司98%的管理者被评为“完全符合预期”。当几乎所有人都获得了最高评价时,这些评估的真实价值就值得怀疑了。

相对判断的优点

从理论上讲,解决评估通胀问题的一个有效方法是在评估过程中引入一些规范,其中一个普遍的做法是强制排名(forced ranking)。在强制排名体系中,评估者不仅不能给所有人最高的评分,而且评分还必须遵循预先设定的评分分布。杰克·韦尔奇(Jack Welch)在担任通用电气CEO时曾倡导强制排名这种做法,以此来防止评估通胀,以及确保绩效考核的“公正”。许多公司都采用了这个方法,但由于它会对员工士气和团队合作产生不良影响,人们渐渐就不再使用这种方法了。

无论排名有什么缺点,排名的噪声都比评分的要小。我们在惩罚性损害赔偿的例子中看到,相对判断中的噪声比绝对判断中的噪声要少得多,因此这种关系也被证明适用于绩效评估

想要了解其中的原因,请看图23-1,它展示了两种评估员工表现的量表。A组对员工进行绝对评分,我们称之为匹配性操作——找到与员工“工作表现”印象最接近的分数。相比之下,B组要求在特定维度(如安全性)上将每个人与同组的其他人进行对比,要求主管使用百分位数来评定员工在特定人群中的排名。从图中我们可以看到,主管已在百分位数量表上找到了3名员工的位置。

阅读 ‧ 电子书库

图23-1 绝对量表和相对量表的示例

B组的方法有两个优点。第一,每次只在一个维度上对所有员工进行评估(在这个例子中评估的是安全性),这是一种减少噪声的策略,即将复杂判断结构化地分解成多个维度的单一判断,我们将在下一章详细讨论这一策略。结构化是一种限制光环效应的手段,它通常可以将一个人在不同维度上的评估限制在一个小范围内。当然,只有在像本例这样对每个维度分别进行排名时,结构化才能起作用。如果在“工作表现”这种定义不清晰的总体判断上对员工进行排名,则不会减少光环效应。

第二,正如我们在第15章中讨论的那样,排序同时减少了模式噪声和水平噪声。当你将两个团队成员的绩效相互比较而不是单独给每个人打分时,出现评估不一致(产生模式噪声)的情况会少一些。更重要的是,排名自动消除了水平噪声。如果琳恩和玛丽对同一个包含20名员工的团队进行评估,尽管琳恩比玛丽的评估标准更宽松,她们给出的平均评分会有所不同,但她们给出的平均排名不会存在差异——一个标准宽松的评估者和一个标准严苛的评估者采用的是相同的排名方式。

事实上,强制排名的主要目的在于减少噪声,它确保了所有评估者都有相同的平均值和相同的评分分布。如果规定了评分的分布,排名就是强制的。例如,某一条规则可能会规定“被评为最优的人数不可以超过被评估者总人数的20%,垫底的人数也不可以少于总人数的15%”。

排名,但不强制

从原则上说,强制排名理应给评估带来巨大的改善,结果却往往适得其反。这里我们不打算就其可能带来的所有不良后果展开讨论,这往往与执行不力有关,而非原则本身的问题,但我们还是可以从强制排名体系的两方面问题中吸取一些具有普遍性的教训。

首先是绝对绩效和相对绩效之间的混淆。任何公司都不可能有98%的经理在绩效表现上跻身群体的前20%、前50%甚至前80%。但如果预期的绩效是事先定义好的绝对绩效,那么经理们都能“达到预期”也并非不可能。

许多高管并不认同几乎所有员工都能达到预期标准这一点,他们认为,如果是这样的话,肯定是期望标准设置得太低了,要不就是因为自鸣得意的组织文化。诚然,这种解释可能是正确的,但大多数员工也可能确实达到了高预期标准,而且在高绩效组织中,这种情况完全有可能出现。例如,当你听说所有成功执行太空任务的宇航员都完全达到了预期标准,你并不会嘲笑国家航天部门的绩效管理程序太过宽松。

重点是,只有当组织关心相对绩效时,依赖于相对评估的体系才是合适的。例如,无论人们的绝对绩效如何,都只有一定比例的人可以晋升,此时,相对评估才可能有意义——参考军队的晋升机制。但是,如果像很多公司那样,评估的目的只是衡量员工的绝对绩效水平,此时强制使用相对排名便不合逻辑了。强制规定将一定比例的员工评为不符合(绝对)预期,这不仅残忍而且荒谬——如果说在一支精锐部队中,有10%的人必须被评为“不满意”,那么这种做法就太愚蠢了。

其次,有些组织认为强制的评估分布反映了潜在的真实绩效分布(通常指接近正态分布),然而,即使群体中的绩效分布是已知的,同样的分布也可能不会出现在一个较小的群体中,如由一名评估者评估的小型员工群体。如果从几千人中随机挑选10人,你不能保证其中一定有两个人属于总体的前20%。“不能保证”是保守的说法,实际上,这种情况发生的概率只有30%。而在实践中,这个问题会更加严重,因为团队的构成不是随机的。一些团队成员可能全是高绩效人员,而另一些团队则可能完全由低绩效人员组成。

在这种情况下,强制排名的做法不可避免地会产生错误和不公正。例如,假设一个评估者所评估的团队由5个绩效表现相同的人组成,他们的实际绩效表现相差无几,而其评分却要符合强制性、差别化的评分分布,这样的做法并不能减少错误,反而会增加错误。

批评强制排名方法的人经常把攻击的重点放在排名原则上,他们谴责这一原则的残忍、不人道,并认为采用这种方法会适得其反。无论你是否接受下述辩驳,强制排名的致命缺陷不是“排名”,而是“强制”。不管是因为将相对量表用于衡量绝对绩效,还是因为做判断者被迫要将无法区分的绩效区分开来,只要判断中强制使用了不合适的量表,不管你怎么选择量表,都会自动增加噪声。

确保有一个达成共识的参考框架

对于各种组织为改进绩效评估的测量方式所做的努力,说其结果“令人失望”都算是保守的,这些努力的结果是:绩效评估的成本直线上升。2015年,世界四大会计师事务所之一德勤(Deloitte)经过计算发现,公司每年要花费200万工时用于评估6.5万名员工的绩效。绩效评估可以说是组织中最可怕的仪式之一,那些不得不进行评估的人和不得不接受评估的人都痛恨绩效评估。一项研究发现,90%的管理者、员工和人力资源主管都认为,他们的绩效管理流程无法实现预期的效果,相关的研究证据也证实了大多数管理者的这种感受。这一发现令人震惊。虽然绩效反馈与员工发展计划相结合时可以带来一些改进,但绩效评估对员工工作积极性的打击同它带来的激励一样大。正如一篇评论文章总结的那样:几十年来,无论人们尝试了什么方法来改进绩效管理流程,绩效评估仍然会产生不准确的信息,并且对提升绩效几乎起不到任何作用。

由于对绩效管理流程感到绝望,越来越多的公司正在考虑做出一种极端的选择:彻底取消评估体系。这场“绩效管理革命”的支持者包括许多技术公司、一些专业服务机构和少数传统行业的公司,他们的目标是关注发展性的、面向未来的反馈,而不是回顾性的评估。有些公司甚至采用非数字型的评估指标,这意味着他们放弃了传统的绩效评估方式。

对于绝大多数没有放弃绩效评估的公司来说,它们可以做些什么来对其进行改善呢?它们可以采用的减少噪声的策略就是选择合适的量表,以确保不同的判断依据的是相同的参照系。研究表明,改进评估方式并对评估者进行培训有助于提高评估者使用量表的一致性。

需要指出的是,绩效评估量表必须使用具体的描述,只有这些描述足够具体,人们对它们的理解才能够保持一致。许多组织都会使用“行为锚定评估量表”(behaviorally anchored rating scales),该量表上的每个评定等级都对应着具体的行为描述,图23-2的左侧给出了一个示例。

阅读 ‧ 电子书库

图23-2 行为锚定评估量表(左)和案例量表(右)的例子

然而,有证据表明,行为锚定评估量表不足以消除噪声。不过,进一步的参照框架培训(frame-of-reference training)则被证明有助于确保评估者之间的一致性。在这一步流程中,评估者将接受相关培训来对绩效的不同维度进行识别。他们通过视频中的案例来练习进行绩效评估,并通过与专家提供的“真实”评估做比较来了解自己的评估水平。视频中的案例可以作为参考案例,每一个案例都定义了绩效量表上的一个锚定点,这样就形成了一个案例量表,如图23-2的右侧所示。

使用案例量表对每个新成员进行评估时,我们都可以将评估对象与锚定案例做比较,这样一来,评估就变成了一种相对判断。由于相对判断比评分更不容易受到干扰,案例量表比使用数字、形容词或行为描述的量表更可靠。

参照框架培训在几十年前就已经为人们所知,用它进行评估,结果显然更加准确,噪声数量也更小,然而,这种方法却难以得到普及。我们很容易猜到其中的原因,参照框架培训、案例量表以及其他力图达到相同目标的工具都很复杂,而且构建这样的工具需要花费大量时间。为了保证切实可用,它们常常需要根据公司的需求甚至为评估部门专门定制,并且要随着岗位要求的变化而不断更新。这些评估工具要求公司在已经投入巨大资金的绩效管理系统中追加新投入,这与现在的做法背道而驰。在第六部分,我们会介绍更多有关减少噪声成本的内容。

此外,对于任何组织来说,如果控制了评估者在评估过程中的噪声,也就限制了评估者按照自身意图来影响评估的空间。要求管理人员接受额外的评估者培训,在评估过程中投入更多精力并放弃对结果的一些控制,这些举措肯定会面对相当大的阻力。值得注意的是,迄今为止,大多数关于参照框架培训的研究使用的被试都是学生,而非实际管理者。

绩效评估这一大课题产生出了许多现实问题和哲学问题。例如,有些人会问,在当今的组织中,个人绩效的概念在多大程度上是有意义的,因为组织的成果往往取决于人们之间的互动。如果我们认为这个概念确实是有意义的,那么就需要想一想,在一个既定的组织中,个人绩效水平是如何分布的,例如,绩效是否服从正态分布,或者是否存在做出极大贡献的“超级人才”。如果你的目标是让人们表现出最好的一面,那么你自然会问,衡量个人绩效并用衡量结果来激发人们的恐惧与贪婪是不是最好的方法?这是不是有效的方法?

如果你正在设计或修改组织的绩效管理体系,那么你就需要回答以上问题乃至其他更多问题。我们的目的不是研究这些问题,而是提出一个更为温和的建议:如果你确实测量了绩效,你的绩效评估过程很可能充满了系统噪声,因此这些评估过程可能基本上是无用的,甚至会适得其反。减少噪声是一项挑战,因为它无法通过简单的技术修复来解决。它要求评估者对自己做出的判断有清晰的思考。你很有可能会发现,可以对量表进行清晰的界定,可以训练人们始终按照相同的方法使用这一量表,以此来提升判断品质。这种降噪策略也适用于许多其他领域。