认知风格对判断的影响
不管心智能力如何,人们的认知风格或执行判断任务的方法都是不同的。研究人员已经研发了一些表现认知风格的工具。大部分测量方法都与GMA相关(或者彼此相关),但测量的重点各不相同。
其中一种测量是“认知反射测试”(Cognitive Reflection Test,CRT),该测试就是大众熟知的“球和球棒”问题:一个球和一个球棒的价格为1.1美元,球棒比球贵1美元,那么这个球值多少钱?研究人员建议使用的其他测量问题包括:在一场跑步比赛中,你超过了第二名,你现在是第几名?CRT旨在测量人们能够在多大程度上抑制闯进大脑中的第一个答案,也就是错误的答案:在球和球棒问题中回答“0.1美元”,在跑步比赛问题中回答“第一名”。低CRT得分与现实生活中的一些判断和信念有关,比如相信鬼魂、占星术、超感知觉(俗称“第六感”)。CRT得分还可以预测人们是否会因为明显不准确的“假信息”而上当。该测试的得分甚至与人们使用智能手机的程度有关。
许多人将CRT视为测量一种更宽泛的概念的工具,即测量人们是否会习惯性地运用反射性或冲动性思维过程。简言之,有些人喜欢深入思考,而另一些人在面对同样的问题时往往会相信自己一时兴起做出的判断。用我们的专业术语来说就是,CRT是一种测量人们倾向于使用缓慢的系统2思维还是快速的系统1思维的方法。
其他自我评估的方法也被用来测量这一倾向,当然,所有这些测试都是彼此相关的。例如,认知需求量尺考察人们愿意在多大程度上仔细思考问题。要想在这项测试中得高分,你必须认同“我倾向于设定一些我要付出大量脑力劳动才能实现的目标”而不能认同“思考不是我的乐趣”。认知需求高的人不太容易出现已知的认知偏差。研究者还提及了一些匪夷所思的联系:“如果你不喜欢‘剧透’,你可能具有更高的认知需求;那些在认知需求量表上得分低的人,更偏爱‘剧透’。”
这是一个自我评估的量表,并且什么样的答案更容易得到大众认可是显而易见的,因而会引发相当合理的质疑。那些希望给他人留下良好印象的人不太可能会认同“思考不是我的乐趣”这样的表述。因此,其他测验试图直接测量人们的技能,而不再采用自我描述的方式。
其中一个例子是“成人决策能力量表”(adult decision making competence scale)。这一量表测量人们在判断过程中犯一些典型错误的倾向性,比如风险知觉中的过度自信或不一致性。另一个例子是“哈尔彭批判性思维测试”(Halpern critical thinking assessment),这一工具主要评估批判性思维技能,包括理性思考的倾向和一套可习得的技能。在评估中,你需要回答类似下面的问题:想象一下,你的一位朋友不知道应该选择两个减肥项目中的哪一个,于是向你征求意见。其中一个项目称他们的客户平均减掉约11千克;另一个项目称他们的客户平均减掉约13.6千克。在进行选择之前,你认为需要先弄清楚哪些问题?如果你回答说,你想知道“有多少人减掉了这么多重量”“减肥效果能否维持一年以上”等问题,你就会因应用了批判性思维而获得相应的分数。在成人决策能力量表或哈尔彭批判性思维测试中,获得高分的人们在生活中似乎能做出更好的判断:他们较少承担由错误判断导致的不良后果,例如意外怀孕,或因忘记归还租来的影碟而不得不支付滞纳金。
认知风格和能力的测量以及其他测量都能对判断品质进行预测,这种看法似乎是合理的。然而,认知风格和能力与判断品质之间的相关性随任务的不同而产生差异。乌里尔·哈兰(Uriel Haran)、伊拉娜·里托夫(Ilana Ritov)和芭芭拉·梅勒斯在寻找可以作为人的预测能力指标的认知风格时发现,认知需求并不能预测谁会更努力地去获取信息。他们也并未发现认知需求与更高的绩效之间存在稳定的关系。
唯一能预测人们的预测品质的量表是由心理学教授乔纳森·伯龙(Jonathan Baron)发明的。该量表用于测量人们的“积极开放性思维”(actively open-minded thinking)。积极开放性思维是指个体愿意积极搜寻与自己先前的假设相矛盾的信息,这些信息包括其他人的不同意见以及与原有看法不一致的新证据。具有积极开放性思维的人会认同“允许自己被相反的意见说服是一种良好的品质”这类陈述,而不认同“改变想法是一种脆弱的表现”或“直觉是决策的最佳指南”这类观点。
换言之,虽然认知反射和认知需求的得分情况反映的是人们进行慢思考或审慎思考的倾向,但积极开放性思维更胜一筹。那些谦逊的人会一直提醒自己判断是一个不断发展的过程,并渴望被纠正。我们在第21章会看到, 拥有这种思维模式的人是最好的预测者,他们会根据新的信息不断修正自己的思维和观念。好消息是,一些证据表明,开放性思维是一种可习得的技能。
这里,我们不打算就如何在某些领域挑选出能做出良好判断的人给出一个硬性的结论,但从上面这个简短的描述中可以得出两个通用原则。首先,比较明智的做法是,认识到不同领域专家之间的区别:在一些领域,例如天气预报领域,专家的预测是可以被客观验证的,因此其专业水平可以分出优劣;而另一些领域的专家则是尊重型专家,比如政治分析家可能说得头头是道,令人信服,而象棋大师可能看起来谦卑内敛,也无法解释走出某些棋步的理由,然而,相比于后一种情况,你更需要对前一种专家的判断持怀疑态度。
其次,一些判断者有可能比其他具有同等资历和经验的人做得更好。如果有些人表现得更好,那么他们的判断将会出现更少的偏差或噪声。在导致这种差异的诸多因素中,智商和认知风格是关键。尽管没有哪一项单独的测试或量表能够准确无误地预测人们的判断品质,但你可以试着去物色这样的人:他们愿意积极搜寻与自己的看法不一致的信息,并把这种信息整合进当前观点,且希望最终能改变自己的想法。
具有卓越判断能力的人,他们的个性可能不符合公众认可的行事果断的领导者形象。人们往往倾向于相信和喜欢这样的领导者:他们自信满满、口齿伶俐,似乎轻而易举或生来就知道什么是对的,而且这类领导者还能激发人们的信心。但证据表明,如果想要减少错误的判断,那么对于领导者或普通人而言,最好的做法是对反对意见持开放态度,并乐于接受“自己可能错了”的想法,如果依然想要坚持己见,那也是在听取了各方意见之后,而不是之前。
· 消除噪声
思维越开放,判断越好
· 你是一位专家,但你的判断可以被验证吗?你是一名尊重型专家吗?
· 如果需要在两种观点中选择一种,而我们对提出这些观点的人的专业性和过往经历一无所知,那么,我们可以选择听从更聪明的人的观点。
· 智商只起到一部分的决定作用,人们如何思考也同样重要。或许你可以选择那些最深思熟虑、思维最开放的人,而不是最聪明的那个。
第19章
消除偏差与决策卫生
许多研究人员和机构都力图减少判断偏差。在本章中,我们将分析他们的核心发现。我们将介绍消除偏差的各类干预措施之间的区别,并探讨其中一种值得进一步研究的干预措施。随后,我们将讨论如何减少噪声,并介绍决策卫生的概念。
干预:事后及事前消除偏差
减少偏差有两种主要方式,要描述它们的特点,一个好方法是回到测量类比。假设你家浴室里的体重秤在测体重时测量值平均会多出约0.23千克,那么你的体重秤是有偏差的,但这并不意味着它毫无用处。若要消除偏差,有两种可行的方法。第一种方法是,将它显示的数值减掉0.23千克,以此来纠正这种误差。当然,每次都这样做有点麻烦,而且有时你可能完全想不起来要这样做。第二种方法是调整刻度盘,一劳永逸地提高仪器的精度。
这两种消除测量偏差的方法,可以直接与消除判断偏差的两种干预方法进行类比:要么在做出判断之后进行纠正;要么在做出判断之前进行干预。
事后或纠正性地消除偏差往往是靠直觉进行的。试想你正在监管一个项目团队,团队成员估计他们可以在3个月内完工。你可以在团队成员判断的基础上加个缓冲期,将计划工期调整为4个多月或更长(计划谬误),以此来纠正当前估计可能存在的偏差。
此类纠正偏差的方法有时会更系统性地进行。英国财政部发布的《绿皮书》(The Green Book)是一本介绍如何评估项目和方案的指南。该书鼓励做计划的人通过进行比例的调整来估算项目的花销和持续时间,以此来解决乐观偏差。在理想情况下,这些调整应参照某个组织的乐观偏差的历史水平。如果没有这样的历史数据,《绿皮书》建议对每个类型的项目应用通用的调整比例。
事前或预防性地消除偏差的干预措施又可以分为两大类。在最有前景的方法中,一些方法旨在改变做判断或决策的环境。这种改变也被称为助推(nudge),众所周知,它们的作用是减少偏差的影响,甚至利用偏差做出一个更好的决策。养老金计划的自动加入制度就是一个简单的例子。推行自动加入制度的意图是克服惰性、拖延和乐观偏差,确保员工为退休储蓄,除非他们主动选择退出该计划。事实证明,自动加入制度极其有效地增加了参与率。该计划有时还搭配“未来多储蓄”(Tomorrow Save More)计划,让员工将一定比例的未来工资增长用于储蓄。这种方式可以在许多地方应用,例如,自动加入绿色能源计划、贫困儿童的学校免费膳食计划,以及其他各种福利计划。
其他助推方式则在选择架构的不同方面发挥作用。它们可能会让正确的决策变得更容易,例如,通过减轻行政管理负担,提高人们获得心理健康护理服务的便利性。此外,它们可以将某一产品或某项活动的某些特征凸显出来,比如让原本的隐形费用更加清楚地显现。对百货商店和网站进行设计,可以轻松地助推人们克服偏差——如果将健康食品放在显眼的地方,则可能会有更多的人购买。
另一类事前消除偏差的方式旨在训练决策者识别并克服这些偏差,其中一些干预措施被称为助力(boosting)。它们通过让决策者学习统计学知识等方法来提升他们的决策能力。
教育人们克服偏差是一项崇高的事业,而且很有用,只是比看上去更具挑战性。例如,那些学了多年高级统计课程的人在统计推理中不太可能出错。不过,教人们完全避免偏差则很难。几十年的研究表明,那些学会了在自己专业领域避免偏差的专业人士,往往难以将所学知识应用到其他领域。例如,天气预报员懂得不要对预报过分自信,当他们宣布有70%的可能性会下雨时,总体来说,遇到这样天气的日子里有70%最终都下了雨。然而,当被问及常识性问题时,他们可能和其他人一样过分自信。学习克服偏差的难处在于如何认识到:一个新问题与我们在别处所见的问题有相似之处,而我们曾在某处所见的偏差很可能也会在其他地方出现。
研究人员和教育工作者已经成功使用非传统的教学方式来增进这种认识。在一项研究中,波士顿大学的凯里·莫尔韦奇(Carey Morewedge)和他的同事使用了教学视频和“严肃游戏”,教参与者识别由证实性偏差、锚定效应和其他心理偏差引起的错误。每次游戏结束后,参与者都会收到自己所犯错误的反馈,并学习如何避免再次犯同样的错误。结果表明,无论是在完成学习后即刻测试,还是在完成学习8个星期后再进行测试,这些游戏都使参与者在被问及类似问题时的犯错次数降低。视频教学的效果要相对弱一些。在另一项独立研究中,安妮-劳蕾·塞利尔(Anne-Laure Sellier)和她的同事发现,那些在教学视频游戏中学会克服证实性偏差的MBA学生,可以在另一堂课上应用学到的知识来解决商业问题,即使没人告诉他们这两个练习之间有联系,他们也做到了。
消除偏差的局限
无论是事后纠正偏差,还是通过助推或助力来事前预防偏差,大多数消除偏差的方法都有一个共同点:它们针对的都是某种被人们假定存在的偏差。这种假设在通常情况下是合理的,但有时是错误的。
思考一下项目规划的例子。你可以合理地假定过分自信会对项目团队产生普遍影响,但你不能确定这是不是唯一的偏差,甚至不能确定它是不是主要的偏差。也许,由于在类似的项目中有过不好的经历,团队负责人学会了在估计时特别保守,此时团队会表现出与你认为应纠正的误差正好相反的误差。又或许,该团队是通过类比其他相似的项目来做出预测的,并以该项目所花费的时间为锚点。还有可能,项目团队成员估计你会对他们的预估工期加一个缓冲期,便抢先对这个工期进行了调整,使得调整后的工期比他们的真实想法更乐观。
再举个例子,请试想一个投资决策。对投资前景的过分自信可能确实在起作用,但另一种强大的偏差——损失厌恶却会产生相反的效果,使决策者不愿冒可能赔本的风险。或者,试想一家公司要在多个项目之间分配资源,决策者可能既看好新项目的收益(过分自信),又不敢从现有项目中挪出一些资源。这是由现状偏差造成的问题,顾名思义,现状偏差是指人们倾向于保持现状。
上述例子表明,我们很难确切地知道是哪些心理偏差在影响判断。在复杂的情况下,多种不同的心理偏差可能会同时起作用,导致其在同一方向上共同叠加或相互抵消,进而产生不可预测的后果。
最后的结论是:事后或事前消除偏差,即纠正或预防特定的心理偏差,在某些情况下是有用的。当误差的大体方向已知并以明显的统计偏差的方式表现出来时,这些方法可以派上用场。那些注定存在严重偏差的决策类型,可能会因采用消除偏差的干预措施而受益。例如,计划谬误是一种足以消除过分自信的影响的可靠的偏差干预措施。
然而问题是,在许多情况下,误差的可能方向无法预知,比如因所有判断者之间的心理偏差不同且不可预测而出现系统噪声的情况。为了减少这类情况中的误差,我们需要广撒网,从而一次检测到多种心理偏差。
你需要一个决策观察者
我们建议,不要在决策前或决策后进行偏差检视,而要在决策过程中即时进行。不过,人们很少会意识到自己正在被自己的偏差所误导,这种缺乏觉察本身就是一种已知的偏差——偏差盲点(bias blind spot)。相比于觉察到自己的偏差,人们通常更容易识别他人的偏差。我们认为,可以训练观察者去实时观测诊断信号,证实一种或几种常见的偏差正在影响他人的决策或建议。
为了阐明这个过程,请你想象一个群体要试着做一个复杂的、会产生重大结果的判断。判断可能是任意类型的,比如应对疫情或其他危机的政府决策、为一个病情复杂的患者寻求最佳治疗方案的会诊、要制定重大策略性行动的公司董事会议等。现在,想象一个决策观察者正对这一群体进行观察,并用一个检查清单来诊断是否存在导致该群体偏离最佳判断的偏差。
决策观察者不好当,并且毫无疑问,在一些组织中,安排决策观察者也是不现实的。如果最高决策者没有下定决心去纠正偏差,那么仅仅发现偏差并没有用。确实,决策者必须是发起决策观察并支持决策观察者的人。我们当然不建议你自己任命自己为决策观察者,这样你既不会赢得朋友,也不能影响他人。
然而,非正式的实验表明,用这种方式可以取得真正的成效。至少,如果使用得当,这种方式是很有用的,特别是当组织或团队的领导者真正愿意为此做出努力并且能够选出好的决策观察者时,因为好的决策观察者不容易受到自身偏差的严重影响。
这些情况中的决策观察者可以分为三类。第一类,在一些组织中,可以由监督员担任决策观察者。监督员不仅需要监管项目团队提案的主要内容,还要特别注意提案产生的过程以及团队的动态,这会使决策观察者对可能影响提案产生过程的偏差有所警觉。第二类,一些组织可以在每个工作团队中任命一个人担任团队的“偏差破坏者”,这位决策过程的“守门员”应实时提醒团队成员关注可能误导他们的偏差。这种方式的不足之处是,决策观察者被放在了团队中“唱黑脸”的位置上,并且可能会很快耗尽其“政治资本”。第三类,一些组织可以依赖一位有中立视角优势的外部协调人员,但此做法的缺点是会泄露内部信息,并且需要一定的花销。
决策观察者要想发挥作用,就需要一些训练和工具。其中一个工具就是一份关于他们试图去探测的偏差的检查清单。使用偏差检查清单的好处很明显:该清单对于提升高风险环境中的决策有悠久的历史,而且尤其适用于防范过去犯过的错误。
举个例子。美国联邦机构在发布一系列实施成本高昂的规章之前,必须编写一份正式的监管影响分析报告,这些规章包括净化空气或水源、减少工作场所死亡事件、提高食品安全、应对公共卫生危机、降低温室气体排放、加强国土安全等。一份标题不讨人喜欢的技术文件,用近50页密密麻麻的文字来陈述要求,这些要求显然是为了抵消偏差而设计的。联邦机构必须解释为什么需要这些规章,同时考虑更严格和相对不那么严格的替代方案,考虑成本和收益,以无偏差的方式提供信息,并适当地给实施效果打个折扣。但在很多机构中,政府官员没有遵守那本文字密密麻麻的技术文件的要求,他们可能根本就没读过。作为回应,联邦政府的官员制作了一份简单的检查清单,篇幅只有一页半,以期降低机构忽视或没能注意到任何重要规定的风险。
为了说明偏差检查清单长什么样,我们在附录2中展示了一个。这个通用检查清单只是一个例子,决策观察者一定要制定一个符合其所在组织需求的偏差检查清单,以增强其相关性并便于应用。重要的是,一份清单并不会详尽地列出所有可能影响决策偏差的因素,它的目的是突出那些最常见以及最重要的偏差。
在决策观察中,使用合适的偏差检查清单有助于限制偏差的影响。尽管我们在一些非正式和小规模的实践中看到了令人振奋的结果,但由于还没看到有人对该方式的效果进行系统性的探究,我们也不知道各种可能的实施方式的利弊。我们希望能够激励实践者和研究人员开展更多的实验,来考察决策观察者在真实环境中消除偏差的实际效果。
决策卫生,减少噪声的关键方法
偏差是我们经常看到甚至可被解释的错误。它是有方向的,这就是为什么助推可以限制偏差的有害影响,以及为什么助力判断可以对抗特定的偏差。偏差通常也是可见的,这就是为什么观察者可以期待在做出决策的过程中能够对偏差进行实时诊断。
然而,噪声是不可预测的误差,既不容易看到,也不容易解释,这就是噪声会造成严重损害却经常被忽视的原因。因此,减少噪声的策略对消除误差的作用,就好比预防保健措施对医疗的作用,这些策略的目的在于,在各种潜在的错误发生之前对其进行预防。
我们称这种减少噪声的方法为决策卫生。当你洗手的时候,你可能不知道自己到底在预防哪种细菌感染,你只知道洗手是预防各种细菌感染的好方法(不仅在疫情期间如此,平时也应该这样做)。同样,遵循决策卫生的原则意味着:即使你不知道想要规避什么样的错误,你也应该采用减少噪声的策略。
与洗手进行类比是我们有意为之。卫生措施可能很乏味,它们带来的益处并非显而易见,你可能永远不知道你预防了什么问题。而当问题真的出现时,你可能无法追溯到底是哪个卫生环节出了问题。因此,很难强制要求人们洗手,即便对方是对其重要性有着充分认识的医疗行业的专业人士,情况也是如此。
就像洗手和其他形式的预防性措施一样,决策卫生极其有用,但并不讨巧。纠正一个很容易识别的偏差至少可以让你获得一种实实在在的成就感,但是减少噪声的过程不会。从统计学上讲,减少噪声可以避免许多错误,但你可能永远也不会知道到底是避免了哪些错误。噪声是躲在暗处的敌人,即使躲开了敌人的暗箭,你可能也察觉不到。
考虑到噪声会造成的破坏,为了赢得这场无形的胜利,我们还是值得一战。后续章节介绍了在多个领域,包括司法、预测、医学和人力资源等领域中应用的几种决策卫生策略。在第25章,我们会综述这些策略,并展示如何将它们整合到一个减少噪声的方法中。
· 消除噪声
决策卫生,让你赢得隐形的胜利
· 你知道自己到底在对抗什么样的偏差吗?它会在什么方面影响结果?如果你不知道,那么可能有好几个偏差在同时起作用,而我们很难预测哪一个会占主导地位。
· 在开始讨论这个决策之前,先指定一个决策观察者。
· 如果在这个决策过程中,我们遵守了良好的决策卫生策略,那么很可能这个决策就是最好的。
第20章
司法科学,信息排序是最大的噪声
2004年3月,在西班牙首都马德里,一组被放置在通勤列车上的炸弹爆炸,造成192人死亡,2000多人受伤。人们在犯罪现场的塑料袋上发现了一枚指纹,并通过国际刑警组织将其传送到了世界各地的执法机构。几天后,美国联邦调查局(FBI)犯罪实验室最终确认这枚指纹属于一个居住在俄勒冈州的美国公民布兰登·梅菲尔德(Brandon Mayfield)。
梅菲尔德看起来有很大的犯罪嫌疑。他曾是美国陆军军官,娶了一名埃及女子为妻。后来,他曾作为一名律师,为一些被指控(后来被定罪)试图前往阿富汗加入塔利班的人辩护。因此他上了FBI的监视名单。
有关机构开始监视梅菲尔德,搜查了他的房子,窃听他的电话。在上述审查未能获得任何实质性证据的情况下,FBI逮捕了他。但他从未被正式指控过。梅菲尔德已有10年没出过国。在他被羁押期间,西班牙调查人员通知FBI,他们认为塑料袋上的指纹与梅菲尔德的指纹不符,而与另一名嫌疑人的指纹相符。
两个星期后,梅菲尔德获释。最终,美国政府向他道歉,支付了200万美元的和解金,并下令对发生这种错误的原因进行全面调查。调查的核心结论是:“错误是人为所致,而不是方法或技术上的问题所致。”
幸好,这种人为错误很少见。尽管如此,它们还是引人深思。美国经验最丰富的指纹专家怎么会误把一枚指纹认定为属于一个从未接近过犯罪现场的人呢?要找到答案,我们首先需要了解指纹鉴定的流程,以及它与其他专业判断案例的关系。我们通常认为司法科学中的指纹鉴定是一门精确的科学,但实际上它会受鉴定人员心理偏差的影响。这些偏差会导致噪声,这些噪声又会产生大量错误,这样的情况之多远超我们的想象。我们来看看司法科学界是如何通过实施一项适用于所有环境的决策卫生策略来解决这一问题的,这个决策卫生策略就是:严格控制用于做出判断的信息流动。
指纹识别,身份识别中备受重视的技术
指纹是手指的脊线纹理在我们接触的物体表面留下的印记。在古代就已经有把指纹当作识别身份的显著特征的例子,而现代指纹技术则始于19世纪末。当时,苏格兰医生亨利·福尔兹(Henry Faulds)发表了一篇科学论文,首次提出将指纹用于身份识别的技术。
在随后的几十年里,指纹作为犯罪记录中的身份标识越来越受到重视,指纹技术逐渐取代了法国警官阿方斯·贝蒂伦(Alphonse Bertillon)发明的人体测量技术。贝蒂伦于1912年开发了一套对指纹进行比对的正式系统。群体智慧的发现者弗朗西斯·高尔顿爵士(Sir Francis Galton)在英国也开发了类似的体系。不过,这些奠基者并没有受到人们的称赞。高尔顿相信指纹是对个体进行种族划分的有效工具,而贝蒂伦可能是出于反犹太主义的倾向,于1894年至1899年在对阿尔弗雷德·德雷弗斯(Alfred Dreyfus)一案的审判中,做出了起决定作用但有误的专家证词。
警察很快发现,指纹的功用不只是可以作为惯犯的识别标志。1892年,阿根廷警官胡安·武塞蒂奇(Juan Vucetich)首次将隐藏在犯罪现场的指纹与嫌疑人的拇指指纹进行了比对。从那时起,收集隐藏指纹(在犯罪现场获得的指纹)并将其与样本指纹(在受控条件下从已知个体身上收集到的指纹)进行比对的做法,一直是指纹识别最关键的操作,并成为应用最广泛的司法鉴定的证据。
如果你见过电子指纹读取器,就像许多国家的移民局使用的那种,你可能会认为指纹比对是一项简单、机械、容易进行自动化作业的任务。但是,比起匹配两个清晰的指纹,把从犯罪现场收集到的隐藏指纹与样本指纹进行比对要烦琐得多。当你把手指紧紧地按在一个专门用来记录指纹印记的阅读器上时,会产生一个整洁、标准化的图像。相比之下,隐藏指纹往往只有一部分,或是不清楚,或是已经变形。它们提供的信息数量和品质与在精心准备的环境中收集到的指纹是没有可比性的。此外,隐藏指纹常常与其他指纹重叠,这些指纹可能属于同一个人,也可能属于不同的人。隐藏指纹的表面可能会出现污垢和其他瑕疵。确定它们是否与犯罪嫌疑人的指纹样本相符需要专业的判断,这就是人类指纹鉴定人员的工作。
拿到隐藏指纹后,指纹鉴定人员通常遵循一套称为ACE-V的过程,即分析(Analysis)、比较(Comparison)、评估(Evaluation)和核验(Verification)。他们必须先分析隐藏指纹,判断它是否有进行比对的价值,如果有,他们会把这枚指纹和样本指纹进行比对;比对后他们加以评估;评估后他们会得出相符(指纹是同一个人的)、排除(指纹不是同一个人的)或无法确认这三种结论。需要重新鉴定的决策会触发最后一步:由另一位指纹鉴定人员重新进行核验。
几十年来,对这一程序的可靠性一直没有人质疑。尽管目击者的证词被证明有时是非常不可靠的,甚至供词也可能是假的,但指纹一直被认为是最可信的证据——至少在DNA分析出现之前一直是这样。2002年以前,在美国的法庭上没有人质疑过指纹证据的可信度。例如,当时的FBI网站就坚称:“指纹鉴定是一种绝对不会出错的个人身份识别手段。”在极少数确实出现了错误的情况下,错误会被归结为鉴定人员能力不足或造假。
指纹证据在很长一段时间内都没有受到质疑的部分原因是,很难证明它是错的。一组指纹的“真实值”,也就是实际罪犯的真实身份往往是未知的。对于梅菲尔德和少数类似案件来说,这个错误尤其严重。但一般来说,即便嫌疑人否认指纹鉴定人员的结论,人们也倾向于认为指纹证据更加可靠。
我们注意到,不知道真实值是普遍现象,但这并不妨碍我们对噪声进行测量。指纹分析中有多少噪声?或者更准确地说,假设指纹鉴定人员与法官或核保员不一样,指纹鉴定人员不是要给出一个数字,而是要做出一个明确的判断,那么他们有多大可能性会意见不一?为什么会这样?这些问题是伦敦大学认知神经科学研究员伊蒂尔·德鲁尔(Itiel Dror)最先着手研究的。他在一个被假定没有噪声问题的领域,进行了一系列类似于噪声审查的研究。
指纹分析中的情境噪声
对于一位认知科学家或心理学家来说,挑战指纹鉴定人员似乎有些奇怪。毕竟,正如你在《犯罪现场调查》(CSI: Crime Scene Investigation)系列节目中所看到的,这些都是需要戴乳胶手套、手持显微镜进行研究的硬科学。但德鲁尔意识到,指纹验证显然是一个判断问题。作为认知神经科学家,他断言:哪里有判断,哪里就有噪声。
为了验证这一假设,德鲁尔首先聚焦于情境噪声,即让同一位专家对同一证据进行两次验证,再观察他的前后两次判断之间的差异。正如德鲁尔所说:“如果专家不可靠到自相矛盾的地步,那么他们的判断和专业性的基础就值得怀疑。”
指纹分析为检查情境噪声提供了一个完美的测试平台,这是因为,不像医生或法官遇到的案件,成对的指纹不容易被记住。当然,必须留出适当的时间间隔,以确保鉴定人员不会记住指纹。在德鲁尔的研究中,一些勇敢、思想开放的专家同意,在未来5年中的任何时候,他们都愿意在不知情的情况下参与研究。此外,实验必须在专家的日常工作过程中进行,这样他们就不会意识到有人在验证自己的技能。如果在这种情况下,鉴定人员在两次测试中的判断不一致,那就证明指纹鉴定中确实存在情境噪声。
缺乏独立性,司法科学的证实性偏差
以上述专家同意为基础,德鲁尔对此前的研究做了调整,又进行了两项研究,这一次,他引入了一个重要的变化。当第二次看到指纹时,一些检验人员会受到可能使这个案例出现更多偏差的信息的影响。例如,指纹鉴定人员在第一次验证时发现指纹是匹配的,但这次却得知“嫌疑人有不在场证明”或“枪支方面的证据表明他不是嫌疑人”。另外一些鉴定人员最初认定嫌疑人是无辜的或指纹无法确定,但在第二次验证中,他们被告知“侦探相信嫌疑人有罪”“目击者指认了他”“他供认了罪行”。德鲁尔称这项实验是对专家“可偏差性”的测试,因为实验人员所提供的背景信息激活了指纹鉴定人员在特定方向上的心理偏差(证实性偏差)。
事实上,鉴定人员很容易产生偏差。当同一批鉴定人员再次鉴定之前看到的相同指纹时,由于这次有了偏差信息,他们的判断也发生了改变。在第一项研究中,4/5的专家在面对强有力的背景信息时改变了他们先前做出的比对相符的决策。在第二项研究中,6位专家重新鉴定了4对指纹。在先前的24个决策中,偏差信息导致了4个决策的改变。可以肯定的是,他们的大多数决策并没有改变,但对于这类决策而言,1/6的改变可以算是很大的比例了。这些研究发现也得到了其他研究人员的证实。
正如我们所料,当决策一开始就很难做出,偏差信息又很强烈,而且对应的改变是从结论确凿的决策变为不确定的决策时,鉴定人员更有可能改变主意。然而,令人不安的是,指纹鉴定专家往往是根据背景环境做出决策的,而不是根据指纹中包含的实际信息来判断。
偏差信息影响的不仅仅是鉴定人员的结论(相符、无法确认或排除),它实际上还改变了鉴定人员对信息的感知,以及对这种感知的解释。在另一项独立研究中,德鲁尔和他的同事们发现,那些处于偏差环境中的鉴定人员,与那些没有接触偏差信息的鉴定人员看到的东西不同。当隐藏指纹与目标样本指纹同时出现时,鉴定人员观察到的细节(微小的细节)明显少于他们只看到隐藏指纹时所观察到的细节。随后的一项独立研究证实了这一结论,并且实验人员补充道:“我们并不清楚它是如何发生的。”
德鲁尔为偏差信息的影响创造了一个术语:司法科学证实性偏差。这一偏差后来为其他司法科学技术所引证,包括血型分析、纵火调查、骨骼遗骸分析和法医病理学。即使是被普遍视为司法科学新黄金标准的DNA分析,也容易受到证实性偏差的影响,至少在专家们评估复杂的DNA混合物时是如此。
司法科学专家易受证实性偏差的影响不仅是一个理论层面的问题,因为现实中尚没有系统性的预防措施来确保专家们不会接触偏差信息。鉴定人员经常会在随证据一起提交给他们的传送信函中收到此类信息,也经常会与警察、检察官和其他鉴定人员直接沟通。
证实性偏差还引发了另一个问题。为避免犯错,人们在ACE-V程序中加入了一项重要的安全措施,那就是在确认指纹的信息之前,由另一位专家独立进行一次验证。但大多数情况下,只有结果是“需要重新识别”时才需要独立验证。这很可能会导致证实性偏差,因为执行核实工作的鉴定人员知道最初的结论是“需要重新识别”。因此,验证的这一步并不像大家预想的那样,能够带来聚合多个独立判断的好处,因为验证实际上并不是独立的。
在梅菲尔德一案中,一系列的证实性偏差似乎起了作用。在这起案件中,不止两位,而是三位FBI专家为错误的身份识别“投下了赞成票”。后来针对这一错误展开的调查指出,第一位鉴定人员似乎非常相信计算机系统自动从指纹数据库中搜索出的结果。虽然他明显没有接触到梅菲尔德的个人基本信息,但执行初步搜索的计算机系统提供的结果,加上处理一个极为引人注目的案件带来的心理压力,足以导致初步的证实性偏差。报告继续指出,一旦第一位鉴定人员做出错误的鉴定,随后的鉴定就被污染了。由于第一位鉴定人员是一位备受尊敬的监督员,“机构中的其他人难有异议”。最初的错误被复制和放大,导致人们几乎就认定了梅菲尔德有罪。到了这一步,哪怕是一位备受尊敬的独立专家接受法院指派代表梅菲尔德的辩护方审查证据,他也会和FBI的意见一致,确认指纹相符。
同样的现象也可能发生在其他司法鉴定领域。隐藏指纹识别被誉为各鉴定领域中最客观的分析手段,如果指纹鉴定人员在操作过程中都存在偏差,那么其他领域的专家也会如此。此外,如果一位枪支专家知道指纹是匹配的,这种信息也会影响他的判断。如果牙齿鉴定专家知道DNA分析已经确认了犯罪嫌疑人,那么这位专家就不太可能认为咬痕与犯罪嫌疑人不匹配。这些例子引发了人们对一系列偏差的恐惧:正如我们在第8章中描述的群体决策一样,由证实性偏差引发的初始错误变成了影响第二位专家的偏差信息,第二位专家的判断又会使第三位专家产生偏差,依此类推。
在明确了偏差信息会导致判断错误后,德鲁尔和他的同事们发现了更多的关于情境噪声的证据。即使指纹专家没有接触到偏差信息,他们有时也会对自己先前见过的一组指纹改变看法。在没有给出偏差信息的情况下,改变确实更少发生但无法杜绝,这些与我们预想的情况相符。2012年,FBI委托进行的一项研究更大规模地重现了这一发现,该研究要求72名鉴定人员再次查看他们在大约7个月前评估过的25对指纹。借助这一高质量鉴定人员的大样本,该研究表明,指纹专家有时容易受到情境噪声的影响,而且大约有1/10的决策改变了。大多数的改变要么从“相符”变成了“无法确认”,要么就是反过来,没有一个决策的改变是源于鉴定错误的。这项研究最令人不安的地方在于,它表明一些原本可以定罪的指纹先前可能被判定为“无法确认”。当鉴定人员验证相同的指纹时,即使背景环境不是为了使他们产生偏差而是要尽可能让他们保持一致,他们的决策也存在不一致性。
少许噪声,但多少误差呢
这些研究结果反映出现实生活中有可能存在司法错误。我们不能忽视出庭作证专家的可信度问题:可信度是效度的条件,原因很简单,如果你自己的判断都会不一致,那么它也难以与真实情况一致。
究竟有多少错误是由司法鉴定中出现的错误造成的?美国一个致力于推翻错案的非营利性组织“无辜者计划”(Innocent Project)收集了350个改判无罪的案件。一份针对这些案件的回顾指出:在45%的案件中,司法鉴定科学的误用是促成错判的一个原因。这个统计数字听起来很恐怖,但法官和陪审员关注的重点有所不同:他们要知道包括指纹鉴定人员在内的司法鉴定专家犯相应错误的可能性有多大,才能知道应给予出庭作证的鉴定者们多少信任。
这个问题的最有力答案可以在总统科技顾问委员会(President’s Council of Advisors on Science and Technology,PCAST)的一份报告中找到。PCAST是一个由美国顶尖科学家和工程师组成的咨询小组,它在2016年对刑事法庭中的司法鉴定进行了全面回顾。其报告总结了指纹分析有效性的现有证据,特别是与错误身份识别(假阳性)的可能性相关的证据,例如关于梅菲尔德的指纹的鉴定。
这方面的证据少得可怜,就像PCAST指出的那样,收集这方面证据的工作直到最近才开展,这实在“令人痛心”。最可信的数据来自2011年FBI的科学家进行的唯一一项大规模指纹识别准确性研究。这项研究有169名鉴定人员参与,每个人都对比了大约100对隐藏指纹和样本指纹,并发现错误的鉴定很少——假阳性率约为0.17%。
0.17%的错误率的确很低,但报告指出:“鉴于一直以来在媒体宣传中指纹鉴定被赋予的高准确性,这一比例要比普通公众乃至大部分陪审员认为的高很多。”这项研究未包含任何有偏差的背景信息,而且鉴定人员知道他们在参加测试,这可能导致该项研究低估了实际案例中出现的错误。在佛罗里达州进行的一项后续研究发现的假阳性率要高得多。这些研究报告中的各种发现表明,我们需要更多的研究来确定指纹鉴定人员决策的准确性以及这些决策是如何做出的。
然而,所有研究得到的一致发现是,鉴定人员犯错的原因都是过于谨慎,这一发现令人欣慰。诚然他们无法做出百分之百准确的判断,但他们知道自己的判断可能会造成什么样的后果,并考虑到了潜在错误的代价。由于指纹识别的可信度非常高,错误的身份识别可能会导致灾难性的后果。其他类型的错误则不会有那么严重的后果。例如,FBI的专家观察发现:在大多数案件中,“排除”与“无法确认”对案件本身产生的影响是一样的,换句话说,在凶器上发现的指纹证据足以证明嫌疑人有罪,但没有指纹证据并不足以证明嫌疑人无罪。
不仅鉴定人员在做判断时会非常谨慎,证据还表明,专家在做出识别决策之前也会考虑再三。在FBI关于身份识别准确性的研究中,不到1/3的“配对”指纹对(隐藏指纹和样本指纹属于同一个人)被(准确地)判定为身份识别成功。与假阴性(排除)相比,鉴定人员做出的假阳性判断(错误识别)也要少得多。他们容易受到偏差的影响,但在这两个方向上的偏差并不等同。正如德鲁尔所指出的,“比起确定的‘相符’的结论,法医专家更倾向于做出‘不确定’的结论”。
鉴定人员接受过训练,因而会将错误的身份识别看成一种不惜一切代价也要避免的致命罪过。值得称道的是,他们遵循了这一原则,我们只能希望他们对身份识别错误的谨慎态度能使像梅菲尔德案这样的身份识别错误的热点案件少之又少。
倾听噪声,减少噪声的第一步
我们观察到在司法科学中存在噪声,这不应视为对法医学家的批评。这仅仅是我们反复观察的结果:哪里有判断,哪里就有噪声,而且比你想象的还要多。像指纹分析这样的任务似乎是十分客观的,以至于许多人根本不会将其视为判断的一种形式。尽管如此,不一致、分歧和偶尔出错在该领域也在所难免。无论指纹识别的错误率有多低,它都不是零,正如PCAST所指出的那样,陪审团应该意识到这一点。
当然,减少噪声的第一步必须是承认它可能存在。指纹识别领域的成员并没有自然而然地承认这一点,他们中的许多人最初对德鲁尔的噪声审查表示非常怀疑。“鉴定人员可能会在不经意间受到案件信息的影响”,这一说法激怒了很多专家。指纹学会(Fingerprint Society)主席就德鲁尔的研究进行了回复:“如果哪位指纹鉴定人员在决策过程中受到了影响……那么他就太不成熟了,他应该去迪士尼工作。”一家大型法医学实验室的负责人指出,接触那些可能使鉴定人员产生偏差的案件信息,“会令鉴定人员获得满足感,让他们享受工作,而不会真正改变他们的判断”。就连FBI在梅菲尔德案的内部调查中都强调,“隐藏指纹的鉴定人员通常会进行核查,他们知道之前的鉴定人员的结果,但这些结果并不会影响他们的结论”。这些言论基本等于否认了证实性偏差的存在。
即使意识到了偏差的风险,鉴定专家也无法避免偏差盲点,即他们倾向于承认他人存在偏差,但认为自己不会。一项对21个国家400名鉴定专家展开的调查显示,71%的人认同“认知偏差是整个司法鉴定科学中一个令人担忧的因素”,但只有26%的人认为“自己的判断受到了认知偏差的影响”。换句话说,大约一半的司法专业人士认为,他们的同事的判断有噪声,但他们自己的判断并不存在噪声。噪声可能是一个看不见的问题,甚至对那些工作职责就是“发现这种不可见”的人来说亦是如此。
对信息排序,一个好的决策者应该努力“保持怀疑”
多亏了德鲁尔及其同事的坚持,人们的态度正在慢慢改变,越来越多的法医实验室已经开始采取新的措施来减少他们分析中的误差。例如,PCAST在报告中赞扬了FBI实验室重新设计程序以尽量减少证实性偏差的风险这一举措。
必要的方法论步骤是简单明了的。它们阐明了一个适用于许多领域的决策卫生策略:通过对信息进行排序来限制过早地使用直觉。在所有判断中,有些信息是相关的,有些则不是,而且信息并非总是越多越好,在信息有可能诱导鉴定人员过早地根据直觉下判断并导致判断产生偏差时尤其如此。
本着这一精神,为确保鉴定人员判断的独立性,司法实验室采用的新程序只有在鉴定人员需要时,才会向他们提供所需的信息。换言之,实验室会逐步透露信息,尽可能地让他们“蒙在鼓里”。因此,德鲁尔及其同事设计的方法被称为“线性序列揭露”(linear sequential unmasking)。
德鲁尔的另一项建议也说明了相同的决策卫生策略:鉴定人员应记录他们在每一步做出的判断。他们应该在查看样本指纹之前记录对隐藏指纹的分析,再判断二者是否匹配。这一系列步骤能帮助专家避免只看到他们正在寻找的东西。他们应该在接触到有可能使自己产生偏差的背景信息之前,记录自己对证据的判断。如果他们在接触到背景信息后改变了主意,也应该记录这些改变及做出改变的理由。这项要求限制了先前的直觉使整个过程产生偏差的风险。
依据同样的逻辑,我们可以提出第三条建议,这也是决策卫生的重要组成部分,即当要求另一名鉴定人员核实第一名鉴定人员做出的身份识别时,第二个人不应知道第一个人的判断。
司法鉴定中存在噪声必然值得关注,因为事关生死,但这也说明了一个问题。长期以来,我们完全没有意识到,指纹识别竟然也可能会出现错误,这说明我们对专家判断的信心有时被夸大了,噪声审查也会暴露出意想不到的噪声数量。简单地改变一下流程就可以改善这种不足,对所有关心提高决策品质的人来说,这一事实令人振奋。
本案例所说明的主要决策卫生策略(对信息进行排序)具有广泛的适用性,可作为预防情境噪声的措施。我们已经注意到,情境噪声是由各种各样的因素触发的,包括情绪,甚至温度。你不能指望控制住所有触发因素,但你可以尝试避免那些会对判断造成明显影响的因素。例如,你已经知道愤怒、恐惧或其他情绪可能会改变判断,于是你也意识到,如果可以的话,在不同时间重复审视自己的判断是一个不错的办法,因为情境噪声的触发因素在不同时间可能不同。
有一种不太显而易见的可能性,那就是你的判断在不知不觉中被另一种触发情境噪声的因素所改变,这种因素就是信息,甚至是准确的信息。就像指纹鉴定人员的例子一样,一旦你知道别人的想法,证实性偏差会导致你过早地形成一个整体印象,并忽略与其矛盾的信息。我们可以用阿尔弗雷德·希区柯克(Alfred Hitchcock)的两部电影的名称来概括这一点:一个好的决策者应该努力“保持怀疑”( Shadow of a Doubt,片名又译《辣手摧花》),而不要成为“已经知道太多的人”( The Man Who Knew Too Much,片名又译《擒凶记》)。
· 消除噪声
要对抗噪声,就要先承认它的存在
· 哪里有判断,哪里就有噪声——包括指纹识别。
· 我们掌握了案子的更多信息,但在专家们做出判断之前,不要把所知道的一切都告诉他们,以免他们的判断产生偏差。事实上,只告诉他们必要的信息即可。
· 如果给出意见的第二个人知道第一个人的意见是什么,那么第二个人的意见就不是独立的了,而第三个人的意见就更不可能是独立的了。如此一来,一连串的偏差便产生了。
· 若要对抗噪声,必须首先承认它的存在。
第21章
甄选与汇总,超级预测的两大策略
许多判断都涉及预测,比如,下个季度的失业率可能是多少?明年将售出多少辆电动汽车?2050年的气候变化会带来什么影响?盖完一幢新楼需要多长时间?某家公司的年收入是多少?新员工会有什么样的表现?新的空气污染管理制度的成本是多少?谁将赢得选举?这些问题的答案会产生重大影响,因为私人机构和公共机构的一些重要选择往往取决于这些答案。
预测分析员的工作职责是分析预测何时会出错以及为何会出错,他们对偏差和噪声(也被称为不一致性或不可靠性)进行了明确的区分。人们一致认为,在某些情况下,预测者的预测是有偏差的。例如,官方机构在对预算进行预测时,会表现出不切实际的乐观。平均来说,他们对经济增长的预测高得离谱,而对赤字的预测则低得不切实际。实际上,无论他们这种不切实际的乐观是出于认知偏差还是政治目的,都无关紧要。
此外,预测者往往过于自信:如果要求将他们的预测用置信区间而不是用单点估计值来描述,他们倾向于选择更窄的区间,而实际上这样做并不合理。例如,一项正在进行的季度调查要求美国一些公司的首席财务官估计下一年标准普尔500指数的年回报率。首席财务官们要提供两个数字:一个是最小值,即他们认为实际回报率有1/10的可能性低于该值;一个是最大值,即他们认为实际回报率有1/10的可能性高于该值。这两个数值的置信区间是80%。然而,事实上实际回报率落入这个区间的可能性只有36%,也就是说,首席财务官们对自己预测的准确性过于自信了。
预测者也充满噪声。J.斯科特·阿姆斯特朗(J. Scott Armstrong)在《预测原理》( Principles of Forecasting)中指出,即使在专家中,“不可靠性也是判断预测的误差来源之一”。事实上,噪声是误差的主要来源。情境噪声很普遍:预测者自己的观点也并不总是前后一致。人与人之间的噪声也很普遍:预测者之间意见不一致,即便他们都是专家。如果让法学教授预测最高法院的裁决,你会发现大量的噪声。如果请相关专家预测实行空气污染管理制度的年度效益,你会发现巨大差异,例如从30亿美元到90亿美元不等。如果你让一群经济学家对失业率和经济增长情况做出预测,你也会发现他们的预测之间存在很大的差异。我们已经看到了许多存在噪声的关于预测的例子,而对预测的研究可以揭示更多问题。
改进预测的两种方法
研究也为减少噪声和偏差提供了建议。我们不会在此进行详尽描述,但会重点讨论两种广泛适用的减少噪声的策略。一种是应用我们在第18章提到的原则—— 选择更好的判断者,从而做出更好的判断;另一种是最普遍适用的决策卫生策略之一—— 汇总多项独立的评估结果。
对多个预测进行汇总的最简单方法是对它们取平均值。从数学的角度来看,平均值法能够保证减少噪声,具体地说,减少的量就是(1-判断总数平方根的倒数)。也就是说,如果你对100个判断取平均值,那么将减少90%的噪声,如果你对400个判断取平均值,则可以减少95%的噪声——基本上就消除噪声了。这一统计规律促使我们采用在第7章讨论过的群体智慧的方法。
由于平均值法不能减少偏差,对总体误差的影响取决于偏差和噪声的比例。这就是为什么当判断彼此独立时,群体智慧最有效,因为群体智慧中不太可能出现共同的偏差。大量实验证据表明,对多次预测取平均值会大大提高预测的准确性,例如在股票分析中,经济预测员的“共识”性预测最准确。就销售预测、天气预测和经济预测而言,一组预测者的未加权平均值优于大多数个体甚至所有个体的预测。而且,通过不同方法获得的平均预测具有相同的效果:在一个涵盖30项各领域的实证比较分析中,研究人员发现综合预测平均减少了12.5%的误差。
直接取平均值并不是对预测进行汇总的唯一方法。群体选择策略与直接取平均值的方法一样有效,即根据近期判断的准确性来选择最好的判断者,然后对少数判断者的判断取平均值。对尊重专家意见的决策者而言,他们更容易理解并采取一种既依赖于汇总又依赖于群体选择的策略。
产生汇总预测的一种方法是利用“预测市场”(prediction markets),在预测市场中,个体就各种可能的结果下注,从而得到激励来做出正确的预测。如果预测市场的价格表明某些事件发生的概率大约是70%,那么它们大约有70%的可能性会发生。从这个意义上说,大多数时候,预测市场的表现非常好。来自各个行业的许多公司都利用预测市场来汇总不同的观点。
另一个汇总不同观点的正式程序是德尔菲法(Delphi Method)。该方法的经典范式是一个包括多轮信息反馈的过程,在此过程中,参与者向组织者提交评估(或投票),并且彼此保持匿名。在新的一轮中,参与者都会给出自己评估的理由,并对其他人给出的理由做出回应,这个过程仍然是匿名的。这一过程鼓励估计值趋同(有时要求新的判断值落在前一轮判断分布的特定范围内,从而迫使估计值趋同)。这种方法能够同时从汇总和社会学习中获益。
德尔菲法在很多情况下都很好用,但是实施起来有一定的挑战性。有一个更简单的版本可以在单个会议中实施,那就是“迷你德尔菲法”。这个方法也被称为“评估-讨论-评估法”(estimate-talk-estimate),它要求参与者首先给出独立的(未公开的)评估,然后进行解释,并说明理由,最后根据其他人的评估和解释做出新的评估。共识性判断是第二轮中获得的个体估计的平均值。
良好判断计划的4个步骤
关于预测质量的一些最具创新性的研究超出了目前为止我们所探讨的内容。这些研究始于2011年,当时3位知名的行为科学家创立了“良好判断计划”(Good Judgment Project)。菲利普·泰特洛克(我们在第11章讨论过他对政治事件长期预测的评估)、他的妻子芭芭拉·梅勒斯以及唐·穆尔(Don Moore)联手提升我们对预测,特别是对为什么有些人擅长预测的理解。
良好判断计划首先招募了数以万计的志愿者,这些志愿者并非专家,而是来自各行各业的普通人。他们被要求回答数百个问题,例如:
· 印度或巴西是否会在未来两年内成为联合国安全理事会常任理事国?
· 在接下来的一年内会有国家脱欧吗?
从上述例子中我们可以看出,该计划主要关注国际大事。重要的是,回答这些问题引发了许多与日常生活更贴近的预测问题。比如一位律师被问到客户是否会胜诉,或是一个电视工作室被问到某个节目提案是否会大受欢迎,这些问题就涉及了预测技巧。泰特洛克和他的同事想知道是否有人尤其擅长预测,预测的能力能否习得或得到提高。
为了理解这些核心发现,我们需要解释一下泰特洛克和他的团队评估预测者时所采用方法的一些关键点。首先,他们使用的预测问题数量很大,而不只是一个或几个,因为那样的话,成功或失败可能全凭运气。如果你预测你最喜欢的队伍将赢得下一场比赛,而且它确实赢了,你也不一定是一个好的预测者。也许你总是预测你最喜欢的队伍会赢,如果这是你的策略,而他们只赢了一半的比赛,那么你的预测能力就不能算是特别厉害。基于这方面的考虑,为了减少运气的作用,研究人员验证了参与者在大量预测中的平均表现。
其次,研究人员要求参与者对事件发生的概率进行预测,而不是仅仅给出“会发生”或“不会发生”这种非此即彼的答案。对许多人来说,预测就是做是非题——站这方或者站那方。然而,考虑到我们在客观上对未来事件是无法知晓的,预测它们发生的概率才是更明智的选择。如果有人在2016年说“希拉里·克林顿有70%的可能性当选总统”,那他不一定是个糟糕的预测者。确切地说,有70%的概率会发生的事情仍然存在30%的不会发生的可能性。要知道预测者的水平高低,我们应该看他们估计的概率是否符合现实。假设一位名叫玛格丽特的预测者说,500个不同的事件发生的可能性为60%,结果其中300个真的发生了,那么我们就可以得出结论:玛格丽特的置信度被校准得很好。良好的校准是良好预测的前提之一。
再次,泰特洛克及其同事又对实验进行了改进,他们不仅要求预测者对一个事件是否会在12个月内发生做出一个概率估计,还让预测者根据新的信息不断修改自己的预测。假设你在2016年曾估计,英国在2019年底前脱欧的可能性只有30%,后来,新的民意调查结果显示,“脱欧”的选票持续增加,这时,你很可能会把你的预测值提高。公投结果公布后,我们仍然无法确定英国是否会在公布的时间内脱欧,但看起来可能性肯定会大得多。(事实上,英国已在2020年正式脱欧。)
泰特洛克和他的同事允许预测者根据新出现的信息更新预测,为了便于记分,他们把每次更新都视为一个新的预测。通过这种方式,良好判断计划的参与者被激励去密切关注新闻并不断更新他们的预测。这种方法反映出人们期望企业和政府预测人员也能够根据新的信息更新预测,尽管后者有可能因为改变主意而遭到批评。对这种批评有个非常常见的回应,有人认为它出自经济学家约翰·梅纳德·凯恩斯(John Maynard Keynes):“当事实改变时,我改变了主意。你又能怎样?”
最后,为了给预测者的表现打分,良好判断计划使用了格伦·W.布赖尔(Glenn W. Brier)于1950年研发的系统。该系统被称为“布赖尔分数”(Brier scores),可以测量人们的预测值和实际值之间的差距。
布赖尔分数是一种巧妙的方法,它可以绕过一个与概率预测相关的普遍存在的问题:预测者通过避免采取大胆的立场来对自己的预测做两手准备。再想想玛格丽特的例子,在我们的描述中她是一个校准效果良好的预测者,因为她将500个事件的发生率定为60%,其中300个事件确实发生了。这个结果可能没有看上去那么厉害。如果玛格丽特是一个天气预报员,她总是预测有60%的可能性下雨,而且500天中有300天下雨,那么玛格丽特的预测是很准的,但也是无用的,因为玛格丽特其实是在告诉你,你可能每天都要带把伞以防万一。拿她和尼古拉斯做个比较,尼古拉斯预测有300天下雨的概率是100%,有200天下雨的概率是0。尼古拉斯和玛格丽特有同样完美的校准:这两位预报员都预测有 X%的日子会下雨,且实际也正是如此,但显然尼古拉斯的预测更有价值:他没有为自己的预测做两手准备,而是明确地告诉你是否应该带伞。从技术上讲,尼古拉斯的判断除了校准效果好外,还有很高的辨析度。
布赖尔分数会对准确的校准和准确的辨析度打出高分。为了得高分,你不仅要在平均水平上是正确的(即校准效果良好),而且要能够表明立场,区分不同的预测(即具有高分辨率)。布赖尔分数以均方误差的逻辑为基础,分数越低越好——0分就是完美。
我们已经了解了评分机制,那么良好判断计划的志愿者表现如何呢?其中一个主要的发现是,绝大多数志愿者的表现都很差,但是有2%的人表现突出。前面说过,泰特洛克称这些表现良好的人为超级预测者。他们几乎从不犯错,他们的预测明显高于随机水平。值得注意的是,一位政府官员表示,这些人的表现明显“好于能够阅读情报和其他秘密数据的情报界分析师的平均水平”。这个类比值得我们反思,情报界的分析专家受过训练,能够做出准确的预测,而且,他们还可以了解机密信息,然而,他们的表现却比不上超级预测者。
永久测试版:一个特殊的思维循环
超级预测者为何如此优秀?与我们在第18章中的论述一致,我们可以合理地推测他们异常聪明。这种推测并没有错。在GMA测试中,超级预测者在良好判断计划中的表现比普通志愿者更好,而普通志愿者的成绩已经明显高于平均水平。但差别并不总是那么大,许多在智力测试中表现非常好的志愿者并没有成为超级预测者。除了常规智力,我们可以合理地预期超级预测者在数学方面的能力异常出色。他们的确如此。但他们真正的优势不是数学天赋,而是能够轻松自如地应用分析思维和概率思维。
想一想超级预测者对问题进行组织和分解的意愿和能力。他们不会对一个国家是否会退出欧盟、一场战争是否会在某地爆发这样的问题形成一个整体判断,而是将其分解为几个组成部分。他们会问:“什么情况下答案才是肯定的?什么情况下答案是否定的?”他们会问并试图回答一系列辅助问题,而不是给出一种直觉或整体的预感。
超级预测者也擅长从外部视角看问题,他们非常关心基准概率。正如第13章中对迈克尔·甘巴迪问题的阐述,你在关注甘巴迪的个人资料的细节之前,了解一下普通CEO在两年内被解雇或辞职的概率是很有帮助的。超级预测者会系统性地寻找基准概率,当被问及两个国家次年是否会因边境争端而发生武装冲突时,超级预测者们并不只关注或立即去关注这两个国家目前是否相处融洽。根据他们读到的新闻和分析,他们可能对此有一定的直观感受,但他们知道,对某件事情的直觉往往不可靠。相反,他们一开始会去寻找一个基准概率:他们会询问过去的边界争端升级为武装冲突的频率。如果这样的冲突很少发生,超级预测者将首先考虑这一事实,再去了解两国局势的详细信息。
简而言之,超级预测者的与众不同之处不在于他们智力过人,而在于他们明白如何运用智慧。他们运用智慧的技能反映了我们在第18章中描述的那种可能产生更好判断的认知风格,尤其是高水平的“积极开放性思维”。回想一下关于积极开放性思维的测试:它包括“人们应该考虑与他们的看法相悖的证据”和“关注与你意见不同的人比关注那些与你意见一致的人更有用”。显然,在这项测试中得分很高的人在新的信息出现时会大大方方地更新自己的判断,而不会反应过度。
为了描述超级预测者的思维方式,泰特洛克使用了“永久测试版”(perpetual beta)的说法。这是一个程序员常会使用的术语,指的是一个不打算在最终版本中发布,却被无休止地使用、分析和改进的程序。泰特洛克发现:跻身超级预测者行列的最有力的预测因素是“永久测试版”,即人们致力于更新看法和提高自我完善的程度。正如泰特洛克所说:“超级预测者之所以如此优秀,不在于他们是谁,而在于他们做了什么——艰苦的研究工作,仔细的思考和自我批判,对其他观点的收集和汇总,细微的判断和不懈的更新。”他们喜欢一个特殊的思维循环: 尝试,失败,分析,调整,再试一次。
预测中的噪声和偏差
此时,你可能会想,人们可以被训练成超级预测者,或者至少变得更像一位超级预测者。事实上,泰特洛克及其合作者正在为此而努力。他们做的工作可以被视作了解“超级预测者为何表现如此出色,以及如何让他们更出色”的第二个阶段。
在一项重要的研究中,泰特洛克和他的团队将普通预测者随机分为3组,来测试不同干预措施对其后续判断品质的影响。这些干预措施恰好对应我们描述的改善判断的3种策略。
· 培训:一些预测者完成了一个概率推理的课程,以期提升他们的预测能力。在这个课程中,预测者们了解了各种偏差(包括忽视基准概率、过分自信和证实性偏差)、对不同来源的多个预测取平均值的重要性,并将参照类别纳入考量。
· 团队合作(一种汇总判断的形式):让一些预测者组成团队,这样一来,他们就可以看到彼此的预测,并能够进行讨论。团队合作可以通过鼓励预测者应对相反的论点、保持积极开放的思维来提高准确性。
· 甄选:对所有预测者的准确度进行评分,在年终时,排名前2%的人被指定为超级预测者,并有机会在接下来的一年里与精英团队合作。
事实证明,这3种干预措施都非常有效,从某种意义上说,它们提高了人们的布赖尔分数,而且我们发现训练是有效的,团队合作更有效,甄选的效果最优。
这一重要发现证实了汇总判断和选择优秀判断者的价值,但这并不是全部。有了关于每次干预效果的数据,泰特洛克和梅勒斯的合作者维莱·萨托帕(Ville Satopää)开发了一种复杂的统计技术,以梳理每一种干预措施究竟是如何改善预测的。他推断,从原则上讲,一些预测者的表现比其他人更好或更差的主要原因有3个:
· 他们可以更熟练地发现和分析环境中与自己要做出的预测相关的数据,这也说明了信息的重要性。
· 一些预测者可能总倾向于错误地高估或低估预测的真实值。如果在成百上千的预测中,你在整体上高估或低估了发生某种变化的可能性,那么可以说,你受到了某种形式的偏差的影响,要么是倾向于支持改变的偏差,要么是倾向于保持稳定的偏差。
· 一些预测者可能不太容易受到噪声或随机误差的影响。正如在任何判断中一样,当我们进行预测时,噪声可能有许多触发因素;预测者可能对某条新闻反应过度(这是我们称之为模式噪声的一个例子),可能会受到情境噪声的影响,还可能在使用概率量尺时产生噪声。所有这些误差(以及很多其他误差)的大小和方向都是不可预测的。
萨托帕、泰特洛克、梅勒斯及其同事马拉特·萨利霍夫(Marat Salikhov)称他们的模型为BIN预测模型,BIN是Bias(偏差)、Information(信息)、Noise(噪声)这三个单词首字母的合称。他们测量了这三种因素在多大程度上提升了三种干预措施效果。
他们的答案很简单:这三种干预措施主要是通过减少噪声起作用的。正如研究人员所说:“干预措施提高准确性的主要手段是抑制判断中的随机误差的出现,然而,训练干预的初衷是减少偏差。”
鉴于训练的目的是减少偏差,一个不太出色的预测者会预测,减少偏差是培训的主要效果。然而,培训是通过减少噪声来起作用的。这种奇特的现象很容易解释。泰特洛克的训练的主要目的是对抗心理偏差。我们现在已经知道,心理偏差并不总是会造成统计偏差。当心理偏差以不同的方式影响不同个体的不同判断时,就会产生噪声。很明显,这里的情况就是这样的,因为所预测的事件是多种多样的。由于主题不同,同样的偏差会导致预测者反应过度或反应不足。我们不要认为他们会产生统计偏差,即预测者相信事件会发生或不会发生的普遍倾向。因此,培训预测者克服他们的心理偏差是有效的——通过减少噪声的方式。
团队合作对减少噪声有相当大的作用,同时也显著提高了团队提取信息的能力。这一结果与汇总的逻辑一致:几个人协同工作比一个人更善于发现重要信息。如果爱丽丝和布莱恩一起工作,爱丽丝发现了布莱恩错过的信号,那么他们进行联合预测会更好。在团队中工作时,超级预测者似乎能够避免群体极化和信息级联的危险。相反,他们会汇总不同个体的数据和想法,并以积极开放的方式充分利用综合的信息。萨托帕和他的同事解释了这一优势:“与培训方式不同的是,通过团队合作……预测者可以利用这些信息。”
甄选的总体效果最好,一些改进源于更好地利用了信息。超级预测者比其他人更善于发现相关信息,这可能是因为他们比一般参与者更聪明、更有动力、对做出此类预测更有经验。但甄选的主要作用还是减少噪声。超级预测者比普通人,甚至比受过训练的团队产生的噪声更少。这一发现也让萨托帕和其他研究人员大吃一惊:“超级预测者”的成功主要归功于他们在控制测量误差方面的出色能力,而不是其他人无法复制的对新闻的透彻解读。
甄选与汇总的有效之处
超级预测项目的成功突出了两种决策卫生策略的价值:甄选(超级预测者都超级棒)和汇总(预测者组成团队进行合作时表现更好)。这两种策略可以被广泛地应用在许多判断过程中。只要有可能,你应该通过组建业务能力出众且能力互补的判断者团队(由预测者、投资专家、招聘人员组成)来实现战略性合作。
到目前为止,我们已经考虑了通过对多个独立判断取平均值的方式来提高精确度,就像在群体智慧实验中一样。对高准确性判断者的评估进行汇总将进一步提高判断的准确性。通过汇总既独立又互补的判断,我们可以获得准确度上的进一步提高。试想有4个人是一场犯罪行为的目击证人(确保他们不会相互影响至关重要),他们从4个不同的角度目击了犯罪行为,那么将他们提供的信息进行汇总后其质量会好很多。
组建一个专业团队来共同完成判断任务,类似于组建一套综合测试来预测候选人未来在学校或工作中的表现。该任务的标准工具是多元回归(见第9章),它通过依次选择变量来执行。首先选择的是最能预测结果的第一个测试,然而,下一个测试不一定是第二有效的。相反,第二个测试提供了有效且与第一个测试无关的信息,为第一个测试增加了最大的预测力。例如,假设你有两个心理素质测验,其与未来的表现的相关系数分别为0.5和0.45,还有一个人格测验,其与未来表现的相关系数只有0.3,但与心理素质测验不相关。最佳的解决方案是首先选择更有效的那个心理素质测验,然后选择人格测验,因为这样会带来更多的新信息。
同样的道理,如果你要组建一个判断者团队,那么你当然应该先挑选最好的判断者。接下来,选择一个判断能力中等却能给团队带来一些新技能的人,而不是与第一个人高度相似且更善于判断的人,这样做可能效果更好。以这种方式组成的团队会更优秀,因为当不同个体的判断彼此不相关时,汇总判断的有效性会比判断存在冗余时提高得更快。在这样的团队中,模式噪声相对较高,因为个人对于每个案例的判断都会有所不同。矛盾的是,有噪声的群体的平均判断水平比高度一致的群体的平均判断水平更高。
我们需要注意的一个重点是:无论多样性如何,只有在判断真正彼此独立的情况下,对判断进行汇总才能减少噪声。正如我们在讨论群体中的噪声时所强调的,群体审议过程中增加的偏差往往比消除的噪声更多。一个组织想要利用多样性的力量,那它必须愉快地接受团队成员独立做出判断时产生的分歧。激发和汇总既独立又多样的判断往往是最简单、最便宜且适用范围最广的决策卫生策略。
· 消除噪声
像超级预测者一样思考
· 取4个独立判断的平均值,保证可以将噪声减少一半。
· 我们应该像超级预测者一样,努力使自身保持在“永久测试版”状态。
· 在讨论某个具体情况之前,我们需要先了解一下相关的基准概率是多少。
· 我们有一个很好的团队,但如何确保意见的多元性?
第22章
医疗决策,用科学的诊断指南减少噪声
几年前,我们的一位好朋友保罗被他的主治医师琼斯诊断为患有高血压。琼斯医生建议保罗尝试药物治疗,他给保罗开了利尿剂,但保罗的血压依旧很高,也就是说药物没起到效果。几个星期后,琼斯又开了第二种药物——钙通道阻滞剂,但效果依然不理想。
这些结果使琼斯困惑不已。虽然过去的3个月保罗每星期都会来复诊,但他的血压只是略有下降,仍然很高。对于下一步的治疗方案,琼斯医生感到很苦恼,保罗也很焦虑,毕竟他年纪不算大,身体也一向健康。随后,琼斯医生寻思着尝试第三种药物。
就在这时,保罗搬到了一座新城市,在那里他咨询了另一位名叫史密斯的医生。保罗向史密斯讲述了他这些日子与高血压抗争的经历。史密斯立即回答说:“买一台家用血压计,在家测测看血压值是多少。我认为你根本没有高血压。你可能只是得了‘白大褂综合征’——一进医生办公室,血压就升高!”
保罗照办了,果然,他在家时测得的血压是正常的,而且从那以后一直很正常。在史密斯医生向保罗说了“白大褂综合征”这件事的一个月后,即便是在医生的办公室,保罗的血压也没有再高过。
医生的主要任务就是做出诊断——判断病人是否患病了,如果患病了,还要鉴定出是哪种疾病。在许多情况下,诊断是常规化的,甚至是机械化的,并且人们还制定了规则和程序以减少噪声。医生通常很容易判断某个人的肩膀有没有脱臼或脚趾有没有骨折,而在一些对技术性要求更高的问题上,医生也能比较容易地做出判断。比如,量化肌腱退化的程度时,医生的诊断产生的噪声就很小。当病理学家评估乳腺病灶的穿刺活检结果时,他们的评估是比较明确的,几乎没有噪声。
然而,有些诊断根本不涉及判断。医疗水平的进步往往是通过消除判断也就是将判断转变为计算来实现的。对于链球菌性咽喉炎的诊断,医生首先要对患者的咽拭子标本进行快速抗原检测,这种检测可以很快检测出患者是否出现链球菌感染。可以说,即便有这种快速抗原检测结果,链球菌性咽喉炎的诊断也存在噪声,但如果没有,那情况将更糟。如果你的空腹血糖水平为126mg/dL或更高,或是糖化血红蛋白(过去3个月内血糖的平均值)高于6.5HbAlc,你就会被诊断为患有糖尿病。在新型冠状病毒疫情出现的早期阶段,一些医生做初步诊断时是根据症状做出判断的,随着疫情的发展,检验变得越来越普遍,有了检验结果,判断就没有必要了。
当医生做判断时,他们的判断可能会有噪声,而且可能会出错,标准做法是建议患者再咨询另外一位医生,获取第二诊疗意见。在有些医院里,第二诊疗意见是必须给出的。当第二诊疗意见与首诊意见出现分歧时,噪声就出现了——当然,我们可能并不清楚哪位医生是正确的。一些患者(包括前文案例中的保罗)会惊讶地发现第二诊疗意见与首诊意见的分歧非常大。医疗领域存在噪声并不令人惊讶,真正令人惊讶的是其体量之庞大。
在本章中,我们要阐明医疗领域的噪声如何大到了令人惊讶的程度,并介绍医学界使用的一些减少噪声的方法。我们将着重讨论一个决策卫生策略:诊断指南。我们敏锐地意识到,与医学中的噪声以及医生、护士和医院采取的各种补救措施有关的内容中有非常多可写的,轻而易举便能写成一整本书。但值得注意的是,医学中的噪声并不局限于本章所关注的诊断性判断中的噪声,治疗过程也可能存在噪声,关于这个话题也有大量的文献可供参考。比如,对于心脏存在问题的患者,医生们对最佳治疗方案的判断存在惊人的差异,涉及的问题包括该用哪些药物、正确的手术方式是哪个,以及到底需不需要手术等。20多年来,达特茅斯·阿特拉斯项目(The Dartmouth Atlas Project)一直致力于记录“美国在医疗资源分配和使用上存在的显著差异”,当然,许多国家也存在医疗资源分配不均的情况。对于本书来说,我们只需要简单地探讨诊断性判断中存在的噪声就可以了。
医疗诊断中的噪声
有大量文献介绍了医学界存在噪声,其中许多是实证性的且验证了噪声的存在,也有许多文献是指导性的。一些医学领域的论文一直在提出各种各样的减少噪声的策略,这些论文如同一座座金矿,蕴藏着众多极其珍贵的想法,值得许多领域的专家、学者参考借鉴。
若噪声存在,就证明其中一位医生明显是正确的,另一位明显是错误的并且可能受到某些偏差的影响,正如我们料想的那样,医生的技能在其中发挥了关键作用。例如,一项针对放射科医生做出肺炎诊断的研究发现,噪声中很大一部分源自医生技能上的差异。具体而言,“技能的差异可以解释诊断决策中44%的变异”,这表明“提升技能比使用统一的决策指南更有效”。训练和甄选对于减少误差、消除噪声和偏差至关重要,在医疗领域也是如此。
在医学的某些领域,如放射学和病理学,医生对噪声的存在一清二楚。例如,放射科医生将诊断差异称为“阿喀琉斯之踵”。目前尚不清楚到底为什么放射学和病理学领域的噪声如此受关注,可能是因为这些领域的噪声确实比其他领域多,也可能是因为这些领域的噪声更容易被记录下来,我们猜想易于记录可能是更重要的原因。在放射学领域,人们更容易实施一些简单的噪声测试以及误差测试,例如,你可以再看一遍影像片子来对之前的评估结果进行重新评估。
在医学领域,人与人之间的噪声,或者说评估者信度(interrater reliability),通常用kappa统计量来衡量。kappa值越高,噪声越小。kappa值为1表示评估者们的评估完全一致;kappa值为0,则意味着评估者之间的一致性很差,就跟一群猴子往诊断列表上投飞镖差不多。根据该系数测量得到的信度,医学诊断的某些领域属于“轻度”或者“糟糕”,“糟糕”意味着该领域的噪声非常多。在大多数情况下,该系数测出的信度是“一般”,这当然有所改善,但依然表明其中存在着明显的噪声。随机选出100例药物,要求全科医生判断这些药物之间的相互作用是否具有临床意义,对于这一重要问题,医生们做出的判断“一致性很差”。在许多外行眼里,诊断肾脏疾病处于哪一阶段似乎比较简单,甚至很多医生也这样认为。但是,肾病专家们在基于肾病患者的标准化检测结果进行诊断时,仅勉强达到“中等程度的一致性”。
一项研究发现,关于乳腺病变是否为癌变这一问题,病理学家之间只能达成“一般”程度的一致性。在诊断乳腺增生病变时,一致性同样是“一般”。当医生根据核磁共振成像扫描结果判断椎管的狭窄程度时,一致性也是“一般”。这些发现很值得反思,因为我们说过,在医学的某些领域中噪声水平非常低,但在一些对技术性要求非常高的领域,医生们的诊断还远没有实现零噪声。关于是否会被确诊为患有癌症等严重疾病,患者有时就像在抽签,其结果取决于问诊的是哪位医生。
再来看看这些文献中的其他发现,它们源自那些噪声的严重程度尤其值得关注的领域。我们描述这些发现并不是为了对医务工作的现状做出权威性的论断(医务工作在不断地发展和改进,在某些情况下,发展和改进的速度很快),我们的目的是让大家认识到噪声是普遍存在的,不管是在不远的过去还是现在,噪声都屡见不鲜。
1.在美国,心脏病是男性和女性的主要致死原因。冠状动脉造影是检测心脏病的主要方法,可以评估急性和非急性情况下心脏动脉的阻塞程度。在非急性情况下,当患者反复出现胸痛,且有一条或几条动脉的阻塞程度超过70%时,医生通常会对患者实施支架置入术等治疗措施。然而,有资料显示,医生对血管造影图的解释存在一定的变异,这可能引发不必要的手术。一项早期研究发现,评估血管造影图的医生对大血管阻塞是否超过70%持不同意见,这种情况发生的可能性为31%。心脏病专家普遍意识到,在解读血管造影图时存在潜在的变异,尽管他们不断努力并采取纠正措施,但这个问题仍未解决。
2.子宫内膜异位症是本应该生长在子宫内的子宫内膜组织生长在子宫外所致,这种异位会令病人痛苦不堪,并且可能引发生育障碍。医生一般借助腹腔镜对这种疾病进行诊断,在诊断过程中,医生需要通过手术将腹腔镜的微型摄像头探入患者体内。研究人员让108名妇科医生观看了3名患者的腹腔镜检查视频并做出判断,其中2名患者患有不同程度的子宫内膜异位症,1名患者未患此病。然而,这些医生在判断子宫内膜异位病灶的数量和位置时,产生了很大分歧,并且这些判断在数量和位置上的相关性都很弱。
3.肺结核是全球范围内传播最广、致死率最高的疾病之一。仅2016年,就有1000多万人感染肺结核,死亡人数接近200万。胸部X线检测是一种广泛使用的肺结核检测方法,它可以检测肺部是否出现了由结核杆菌引起的空洞。医生们在肺结核诊断上存在的变异性已有近75年的详尽记录了。尽管这种现象在过去几十年中已有所改善,但研究发现,肺结核诊断中依然存在显著的变异性,诊断一致性仅为“中等”或“一般”。此外,不同国家的放射科医生在肺结核的诊断上也存在差异。
4.当病理学家分析黑色素瘤(最危险的皮肤癌)导致的皮肤病变时,只有“中等”程度的一致性。研究人员要求8位病理学家对每个病例进行诊断,所有病理学家全部达成一致或只有一位意见不一致的情况只占62%。另一项在肿瘤中心开展的研究发现,黑色素瘤的诊断准确率只有64%,这意味着每3个被诊断为黑色素瘤的病灶中就有1个属于误诊。还有一项研究发现,纽约大学的皮肤科医生有36%的可能性无法根据皮肤活检样本诊断出黑色素瘤。这项研究的作者总结道:“医生如果未能在临床上正确诊断出黑色素瘤,就会放任这种潜在致命疾病对患者的生命构成严重威胁。”
5.放射科医生通过乳房X线检测来诊断乳腺癌,这种诊断同样存在变异性。一项大型研究发现,放射科医生诊断结果的假阴性率为0%(每次的诊断都是正确的)~50%(甚至超过50%,也就是说在超过一半的情况中,放射科医生错误地将乳腺癌患者的X线片诊断为正常),而假阳性率为1%~64%(这意味着放射科医生将未患乳腺癌的人的X线片诊断为患有乳腺癌的可能性接近2/3)。同时,不同放射科医生诊断的假阴性率和假阳性率也不同,这证明确有噪声存在。
这些存在于不同人之间的噪声是当下的主要研究方向,但也有一些发现是关于情境噪声的。有时候,放射科医生两次评估同一张影像片子时会给出不同的意见,也就是说第二次给出的意见与第一次的意见不一致。但相比于与他人意见不一致的情况,与自己原有的意见不一致的情况较少出现。在重新评估血管造影显示的血管阻塞程度时,22名医生与自己原有意见不一致的可能性为63%~92%。我们可以看到,在那些标准模糊和判断情境复杂的领域中,评估者的信度可能非常差。
这些研究对这种情境噪声的成因没有明确的解释,而另一项不涉及诊断的研究发现了医学领域情境噪声的一个简单来源,这一发现值得患者和医生牢记。简而言之,医生在清晨比接近傍晚时更可能要求患者做癌症筛查。在一个大样本中,早上8点,乳腺和结肠筛查的预约率最高,为63.7%,到了上午11点,预约率下降至48.7%,中午时又上升至56.2%,下午5点则降至47.8%。因此,在一天中的晚些时候,医生建议就诊的患者做指南推荐的癌症筛查的可能性较小。
我们如何解释这些发现?有可能是因为医生们在遇到患有复杂疾病的患者后,他们的问诊进度会不可避免地落后,这些病情复杂的患者需要的诊断时间往往超过常规的20分钟。我们在前面提到过压力和疲劳等情境噪声的触发因素(见第7章),这样看来这些因素的确在起作用。一些医生为了赶上进度,跳过了对预防性健康措施的讨论。还有一个例子也能说明临床医生会受到疲劳的影响,那就是规范洗手的比率在轮班结束时会低一点,可以说洗手这一过程也充满了噪声。
诊断指南的价值
在不同医学问题的情境中,对噪声的存在及其数量进行全面记录,不仅对医学领域意义重大,而且对人类的认知也有举足轻重的贡献。虽然我们不知道目前是否有此类记录,但希望时机成熟后有人能够完成这一壮举。不过,即使现在没有这类记录,现有的研究结果也提供了一些线索。
在极端情况下,一些问题和疾病的诊断基本上是机械性的工作,不需要做出任何判断。还有一些情况,诊断虽然不是机械性的工作,却很简单直接:任何受过医学训练的人都可能得出同样的结论。在某些场景中,噪声的数量也能得到控制,比如说肺癌专家在进行诊断时,他们的专业性虽不能完全消除噪声,但能使噪声数量最少。有些疾病的诊断给了医生很大的判断空间,并且诊断的相关标准过于宽泛,这会导致噪声数量巨大,且难以降低。我们将看到,大部分精神病学诊断就属于这种情况。
怎样才能降低医学领域的噪声呢?我们在前面提到,培训可以提高医生的技能,而高超的技能当然对减少噪声有帮助。汇总多个专家的判断(如第二诊疗意见等)也能减少噪声。算法是一个特别有发展前景的诊断手段,医生们现在正在使用深度学习算法和人工智能来减少噪声。例如,这类算法已经被用于检测乳腺癌患者的淋巴转移情况。目前最好的算法的诊断准确性优于最好的病理学家。当然,算法是没有噪声的。深度学习算法在检测与糖尿病相关的眼部问题方面,已经取得了巨大的成功。人工智能在通过乳房X线检测诊断癌症方面的表现,几乎和放射科医生一样出色。如果人工智能进一步发展,它的表现可能会比人类更好。
未来医学界可能会越来越依赖算法。这个过程可以同时减少偏差和噪声,挽救生命并节省成本。但本章的重点是人类的判断指南,因为医学领域的情况能够充分说明,指南在某些实践应用中能够确保产生良好甚至极好的结果,而在其他应用实践中会产生更复杂的结果。
1952年由产科麻醉师弗吉尼亚·阿普加(Virginia Apgar)发明的阿普加评分(Apgar score),也许是诊断指南最知名的例子。过去,评估新生儿是否处于危险之中曾是医生和助产士需要做出的临床判断。阿普加评分给了他们一个标准化的指南,供他们评测婴儿的肤色、心率、反射动作、肌肉张力和呼吸状况。这些指标的首字母刚好组成Apgar:外貌(Appearance,指肤色)、脉搏(pulse,指心率)、痛苦反应(grimace,指反射动作)、活动(activity,指肌肉张力)和呼吸(respiration,指呼吸频率和力度)。在阿普加测试中,这5个指标分别对应3个分数:0、1和2。总分最高为10分。7分及以上就可被视为健康状况合格(见表22-1)。
表22-1 阿普加评分指南
要注意的是,心率是评分中唯一一个可以直接评分的项目,其他项目都需要先做一些判断。但是,由于判断被分解为多个相互独立的元素,每个元素都很容易评估,即使是那些仅受过少量训练的医师,在评估时也不太可能产生很大的分歧,因此阿普加评分产生的噪声很小。
阿普加评分展示了指南是如何发挥作用的,以及为什么指南能减少噪声。与规则或算法不同,有了指南仍需判断——决策不是直接进行计算。医师在阿普加评分的每一个项目上都可能存在分歧,因此在最终结论上也可能存在分歧。然而,指南成功地减少了噪声,因为它在预先定义好的维度上将一个复杂的决策分解成了许多简单的子判断。
如果用第9章讨论的简单预测模型来看待这个问题,我们就很容易看到指南的优势所在。临床医生是根据几条预测性线索来判断新生儿的健康状况的。情境噪声可能在其中发挥作用:就在某一天,或者就在某种情绪状态下,临床医生可能会关注一些相对不那么重要的预测因素,或忽略一些重要的预测因素。阿普加评分能够将医生的注意力集中在5个已经过实践验证的重要维度上。然后,评分标准清晰地描述了该如何评估每条线索,这大大简化了根据每条线索做出判断的过程,从而降低了噪声。最后,阿普加评分还规定了如何给各个预测因素赋权,并产生所需的总体判断,这个过程就是一项机械性的工作,而人类临床医生在给这些线索赋权时会存在差异。关注重要的预测因子,简化预测模型,以及进行机械性汇总——所有这些都降低了噪声。
类似的方法已被用于许多医学领域,比如用森特评分(Centor score)来指导链球菌性咽喉炎的诊断。病人如果出现以下症状或体征即得1分:咳嗽(Cough)、有渗出物(exudates,指喉咙后部有白色斑块)、颈部淋巴结肿痛(nodes)、体温高于38摄氏度(temperature)。这些症状的首字母组合刚好是Centor的前4个字母。这一指南由森特及其同事总结得出。根据病人的得分,医生可以决定是否推荐用咽拭子诊断链球菌性咽喉炎。使用该量表进行评估和评分相对直接,这样一来,有些人就不必接受链球菌性咽喉炎的测试和治疗了。
同样,乳腺癌诊断领域也制定了一套根据乳腺影像报告和数据系统(Breast Imaging Reporting and Data System,BI-RADS)进行诊断的指南,从而减少了对乳房X线片解读时出现的噪声。一项研究发现,BI-RADS提升了乳房X线片的评估者之间的一致性,这就表明,对于存在明显变异性的领域,指南可以有效地减少噪声。在病理学领域,关于人们使用指南来减少噪声,也有很多成功的例子。
伤脑筋的精神病学诊断
就噪声而言,精神病学是一个极端的例子。当使用相同的诊断标准诊断同一位患者时,精神科医生经常意见不一致。因此,至少从20世纪40年代起,减少噪声就成为精神病学界的头等大事。我们将看到,尽管指南在不断完善,但在减少噪声方面,诊断指南的作用非常有限。
1964年,一项针对91名患者和10名有经验的精神科医生的研究发现,两名医生意见达成一致的可能性只有57%。在另一项早期的研究中,两名州立医院的精神科医生单独对426名患者进行诊断,结果显示,他们在诊断精神疾病的类型时,诊断的一致性只有50%。另一项涉及153名门诊病人的早期研究发现,医生们在诊断方面的一致性只有54%。这些研究并没有明确噪声的来源。然而有趣的是,一些精神科医生倾向于将患者划分到特定的诊断类别中。例如,有些精神科医生更有可能诊断患者患有抑郁症,而另外一些则更有可能诊断患者患有焦虑症。
我们很快将看到,精神病学中的噪声水平仍然很高。为什么会这样?专家们给不出一个唯一且明确的答案,这意味着他们对噪声的解释本身就充满噪声。诊断类别过于宽泛无疑是其中一个因素。但是,为了初步揭示其中的原因,研究人员让一位精神科医生先面诊一位患者,在短暂休息后,再让另外一位精神科医生进行一次面诊。两位精神科医生随后会面,如果发现彼此意见不一致,再讨论具体的原因。
“医生之间的不一致”有很常见的原因:他们来自不同的学派,接受过不同的训练,拥有不同的临床经验,采用不同的面诊方式。“接受过发展心理学训练的临床医生,可能会将幻觉解释为受虐待所致的创伤经历的一部分”,但“具有生物医学背景的另外一位临床医生,可能会将幻觉解释为精神分裂过程的一部分”。这种差异就是模式噪声的例子。
然而,除了医生之间的不同,噪声的主要成因是“术语不够准确”。这种情况再加上专业人士对精神病学术语的普遍不满,促成了《精神疾病诊断准则手册(第3版)》( Diagnostic and Statistical Manual of Mental Disorders, DSM Ⅲ)于1980年改版完成。该手册首次提出了明确而详细的精神疾病诊断标准,朝着引入诊断指南迈出了第一步。
DSM Ⅲ促使大量的研究关注诊断是否存在噪声。DSM Ⅲ也被证明有助于减少噪声。但这本手册远没有达到完美。即使在2000年对第4版—— DSM Ⅳ(初版于1994年出版)进行了重大修订之后,仍然有研究表明其中存在大量噪声。一方面,艾哈迈德·阿博拉亚(Ahmed Aboraya)及其同事得出结论称:“精神疾病诊断标准的使用已被证明能提高精神疾病诊断的可靠性。”另一方面,仍然存在着一个严重的风险,即对同一个病人要施以多种诊断,才能决定他是否应该入院治疗。
该手册的第5版—— DSM Ⅴ于2013年发布。美国精神病学学会曾希望 DSM Ⅴ能够减少噪声,因为其标准更客观、更清晰。但精神科医生的诊断仍然表现出明显的噪声。例如,塞缪尔·利布利奇(Samuel Lieblich)及其同事发现“精神科医生就患者是否患有重度抑郁症很难达成一致”。 DSM Ⅴ的现场试验发现其“一致性仅达到最低水平”,这“意味着,在实验条件下,训练有素的专业精神科医生对患者是否患有抑郁症达成一致的可能性只有4%~15%”。另外一些现场试验表明, DSM Ⅴ实际上使情况变得更糟了,在所有主要领域中,一些诊断,比如混合性焦虑与抑郁障碍的噪声反而增加了。“ DSM Ⅴ如此不可靠,以至于它在临床实践中显得毫无用处。”
在精神病学中,使用指南之所以很难取得成功,主要原因似乎是“某些疾病的诊断标准仍然模糊,难以操作”。一些指南通过将判断分解成不同的标准来减少分歧,进而减少噪声,但如果这些标准是相对开放的,噪声仍然可能存在。考虑到这一点,我们呼吁制定更标准的诊断指南,具体的改进包括:(1)明确诊断标准,舍弃模糊标准;(2)给出症状及其严重程度的“参考定义”,其依据的理论是“当临床医生对症状是否存在能够达成一致时,他们更有可能在诊断上也达成一致”;(3)除开放式谈话外,对患者进行结构化访谈,建议在访谈指南中纳入24个筛选问题,如焦虑、抑郁和饮食失调等问题,以便医生做出更可靠的诊断。
这些改进建议听起来不错,但能够成功地减少多少噪声,其结果尚未可知。一位观察者曾说:“诊断过程依赖患者的主观症状、临床医生对症状的解读,而且缺乏客观的测量手段(如血液测试),这些因素都在精神疾病诊断中埋下了不可靠的种子。”从这个层面上说,要想减少精神病学中的噪声,困难重重。
在这一特定问题上,现在做出自信的预测还为时过早,但有一点很清楚,一般来说,医学诊断指南在减少偏差和噪声方面非常成功。它们帮助了医生、护士和病人,极大地改善了公共卫生。因此,医学界需要更多的指南。
· 消除噪声
消除医疗诊断中的噪声
· 医生之间的噪声水平远超我们想象。在诊断癌症和心脏病,甚至是看X线片时,专家们也会出现意见不一致的情况。这意味着病人得到的治疗可能是碰运气的结果。
· 医生往往会认为,无论是星期一还是星期五,是清晨还是傍晚,他们都会做出同样的决策。但事实证明,医生的言行可能完全取决于他们的疲劳程度。
· 医疗诊断指南可以使医生少犯错,从而维护病人的利益。这些指南对于整个医疗行业也有帮助,因为它们减少了变异性。
第23章
绩效评估,用基于外部视角的共识框架做出量化判断
让我们从一个练习开始:请选出3个你认识的人,他们可以是你的朋友或同事。请在友善、智慧和勤奋这3种特质上给他们进行1~5分的评分,其中1分是最低分,5分是最高分。现在再请另一个很了解他们的人(这个人可以是你的配偶、好友或者最亲密的同事)用同样的方式对这3个人进行评分。
在某些评估中,你和其他评分者很可能会给出不同的评分,那么出现这种差异的原因是什么呢?你可能会发现,答案在于你们是如何使用量表的,我们称这种量表为水平噪声。也许你认为,需要“特别出众”才能给5分,而另一位评分者则可能认为只需达到“还不错”的水平就能给5分。除此之外,你们之间的差异还有可能是由你们对被评估者的看法不同造成的,例如你们在理解被评估者是否友善以及如何确切地定义美德等问题上存在差异。
现在想象一下,如果要基于你们的评估来确定这3个人能否升职和加薪,并且假设你和另一位评估者是在同一家重视友善、智慧和勤奋的公司工作,你们之间的评分会有差异吗?这种差异会和前面的练习中出现的差异一样大吗?还是更大?不管你的答案是什么,公司的政策和量表上的差异都可能产生噪声,事实上,这种现象在不同组织进行绩效评估时普遍存在。
绩效评估本质上是一种判断工作
几乎所有大型组织都会定期对员工进行正式的绩效评估,而那些被评估的人并不喜欢这种评估。正如有家报纸的标题所示,“研究发现,基本上每个人都讨厌绩效评估”。我们认为,每个人都知道绩效评估会受偏差和噪声的影响,但是大多数人并不知道其中到底存在多少噪声。
在一个理想化的世界里,评估绩效并不是一个判断工作,因为评估人借助客观事实就足以裁定员工工作表现的好坏。但问题在于,大多数现代组织与经济学鼻祖亚当·斯密(Adam Smith)提到的扣针厂没有什么共同之处。在亚当·斯密提到的扣针厂中,每个工人的产出都可以量化。但对一家公司的首席财务官或研发部主管来说,他们的产出是什么呢?当代知识工作者需要平衡多种工作目标,有时这些目标甚至是互相矛盾的。只关注其中一个目标,在做评估时就可能犯错,导致评估结果不准确,并带来负面的激励效果。例如,医生每天接诊的患者数量是医院生产力的一个重要衡量指标,但你并不希望医生一门心思只关注这一指标,更不会只根据接诊人数对他们进行评估和奖励。也就是说,即使是可量化的绩效指标,也需要放在一定的背景条件下进行评估,例如,评估销售人员的销售额或程序员编写的代码行数时,就要考虑具体情况,因为并非所有客户都同样“难伺候”,也并非所有软件开发项目都一模一样。鉴于这些挑战,我们无法完全根据客观的绩效指标对人们进行评估。因此,以判断为基础的绩效评估无处不在。
25%是信号,75%是噪声
有关绩效评估实践的研究文章已经发表了成千上万篇,其中大多数人都发现这些评估充满了噪声。这一发人深省的结论主要是通过对360度绩效评估的研究得出的。这类研究需要多个评估者共同参与,并且基于多个绩效维度对同一个人进行评估。在进行数据分析时我们会发现,这类研究的结果并不理想:真正的差异——个人绩效产生的差异通常不超过总差异的20%~30%,其余70%~80%的差异是系统噪声。
这些噪声是从哪里来的?得益于多项关于工作绩效评估变异性的研究,我们现在已经知道,系统噪声的所有成分都在起作用。
在绩效评估的背景下,这些噪声成分是显而易见的。请想象两位评估者:琳恩和玛丽。如果琳恩的评估标准比较宽松,而玛丽的评估标准比较严格,换言之,琳恩对所有人的评分都比玛丽的更高,那么就出现了水平噪声。就像我们在讨论法官判决的案例时所看到的那样,这种噪声可能表示琳恩和玛丽真的对被评估者形成了不同的印象,也可能表示她们对被评估者的印象相同,但使用评估量表的方式存在差异。
现在,如果琳恩要对你进行评估,而且碰巧她对你和你的工作印象极差,她一向宽松的标准可能会与她对你的特殊(负面)的评价相抵消。这就是我们所说的稳定模式——一个特定评估者对特定被评估者的反应,这种模式是琳恩所独有的,这就是模式噪声的来源。
最后要讲的是情境噪声。玛丽可能在填写评估表之前发现有人把她停在停车场的车撞坏了,这让她在做评估时心情极差;琳恩可能刚刚收到了丰厚的奖金,这让她在做评估时心情极好。类似这样的事情当然可能会产生情境噪声。
关于如何将系统噪声分解为水平噪声、模式噪声和情境噪声这三种成分,不同的研究会给出不同的结论。我们肯定可以想明白,为什么不同组织的噪声成分会有所不同。当然所有形式的噪声都是我们不希望存在的。这些研究所传达的基本信息只有一个:大多数绩效评估结果与被评估者的真实绩效之间的关系远非我们想象中那么紧密。正如一篇综述文章中总结的那样:员工真实的工作绩效和对工作绩效进行的评估之间的关系可能很弱,或者说,两者之间的关系还不确定。
此外,组织中的绩效评估之所以无法反映员工的真实绩效,原因有很多。例如,评估者实际上可能不会尽可能准确地评估绩效,但可能会“策略性地”对员工进行评估。一些其他动机可能使评估者故意给员工打高分,例如为了避免煎熬的反馈性谈话(10),为了帮助一个一直在寻求晋升机会的人,甚至只是为了摆脱一个表现不佳的团队成员——该成员需要有良好的评价才可能被调到其他部门。
这些策略性的考虑当然会影响评估,但它们并不是唯一的噪声来源。我们之所以知道这些,全要归功于一种自然实验:仅以研发为目的的360度反馈系统。在这些系统中,受访者被告知他们的反馈并非用于绩效评估,如果评估者真的相信了这种说法,那么这就能防止他们夸大或降低评价。事实证明,研究性评估确实会对反馈产生影响,但系统噪声仍然很高,而且相比于被评估者的实际绩效系统,噪声能够解释更多的变异性。可以看出,即使是纯粹的研究性的反馈机制,评估中也仍然充满噪声。
一个早就发现却没有解决的问题
如果绩效评估系统如此不可靠,那么实施绩效评估的人就应该已经注意到并力图改进这个体系。事实上,在过去的几十年里,众多组织的确对这些评估制度进行了无数次的改革。这些改革也采用了一些我们提出的减少噪声的策略,但在我们看来,人们做得还远远不够。
几乎所有组织都使用汇总策略来减少噪声。人们通常将汇总评估与360度反馈系统相结合,这在20世纪90年代成为一些大公司的标准做法,《人力资源管理》( Human Resources Management)杂志在1993年推出了一期关于360度反馈系统的专刊。
虽然对所有评估者的评估进行平均有助于减少系统噪声,但值得注意的是,360度反馈系统并非是为了解决这个问题而开发的,它的主要目的是测量出一些领导看不到的东西。这个评估系统要求被评估者的同事和下属而不仅仅是其领导参与对他们的绩效评估,这样一来,评估的本质就已经改变了。从理论上讲,这种转变是一种改进,因为这使得人们的工作并不是为了取悦领导。360度反馈的盛行与非固定的、基于项目的组织形式是契合的。
一些证据表明,360度反馈系统是一个有用的工具,因为它可以对客观、可量化的绩效做出预测。然而,这种反馈系统自身也会制造一些问题。计算机的普及使得在反馈系统中添加更多问题变得轻而易举,组织的多重目标以及越来越多的限制也增加了岗位描述的维度,许多反馈问卷变得异常复杂,过度设计的调查问卷比比皆是。例如,有一份调查问卷要求每个评估者对被评估者在11个维度上进行46项评估。通常来说,人们是无法回忆和处理多个被评估者在多维度上准确且相关的表现的,因此,从某种角度来看,这种过于复杂的方法不仅无用,而且有害。我们知道,光环效应意味着看上去相互独立的维度实际上不会被独立对待,对最初几个问题给予一个强烈肯定或否定的评估后,后续问题的答案就会相应地偏向同一个方向。
更重要的是,360度反馈系统的发展成倍地增加了参与反馈的时间成本。中层管理者被要求填写针对各层级同事的几十份调查问卷,这种情况在很多组织中屡见不鲜,有时他们还需要填写针对其他组织中的员工的调查问卷,因为现在许多公司都要求客户、供应商和其他业务合作伙伴提供反馈。即便这样做的出发点是好的,但是当时间有限的评估者们遭受一系列问卷的“轰炸”时,我们就别指望他们能够提供高品质的信息。在这种情况下,减少噪声要付出的代价可能会非常大,这是我们将在第六部分讨论的问题。
最后,360度反馈系统也存在所有绩效评估体系都无法避免的一种通病——悄无声息地出现评估通胀。比如,一家大型工业公司曾观察到,公司98%的管理者被评为“完全符合预期”。当几乎所有人都获得了最高评价时,这些评估的真实价值就值得怀疑了。
相对判断的优点
从理论上讲,解决评估通胀问题的一个有效方法是在评估过程中引入一些规范,其中一个普遍的做法是强制排名(forced ranking)。在强制排名体系中,评估者不仅不能给所有人最高的评分,而且评分还必须遵循预先设定的评分分布。杰克·韦尔奇(Jack Welch)在担任通用电气CEO时曾倡导强制排名这种做法,以此来防止评估通胀,以及确保绩效考核的“公正”。许多公司都采用了这个方法,但由于它会对员工士气和团队合作产生不良影响,人们渐渐就不再使用这种方法了。
无论排名有什么缺点,排名的噪声都比评分的要小。我们在惩罚性损害赔偿的例子中看到,相对判断中的噪声比绝对判断中的噪声要少得多,因此这种关系也被证明适用于绩效评估。
想要了解其中的原因,请看图23-1,它展示了两种评估员工表现的量表。A组对员工进行绝对评分,我们称之为匹配性操作——找到与员工“工作表现”印象最接近的分数。相比之下,B组要求在特定维度(如安全性)上将每个人与同组的其他人进行对比,要求主管使用百分位数来评定员工在特定人群中的排名。从图中我们可以看到,主管已在百分位数量表上找到了3名员工的位置。
图23-1 绝对量表和相对量表的示例
B组的方法有两个优点。第一,每次只在一个维度上对所有员工进行评估(在这个例子中评估的是安全性),这是一种减少噪声的策略,即将复杂判断结构化地分解成多个维度的单一判断,我们将在下一章详细讨论这一策略。结构化是一种限制光环效应的手段,它通常可以将一个人在不同维度上的评估限制在一个小范围内。当然,只有在像本例这样对每个维度分别进行排名时,结构化才能起作用。如果在“工作表现”这种定义不清晰的总体判断上对员工进行排名,则不会减少光环效应。
第二,正如我们在第15章中讨论的那样,排序同时减少了模式噪声和水平噪声。当你将两个团队成员的绩效相互比较而不是单独给每个人打分时,出现评估不一致(产生模式噪声)的情况会少一些。更重要的是,排名自动消除了水平噪声。如果琳恩和玛丽对同一个包含20名员工的团队进行评估,尽管琳恩比玛丽的评估标准更宽松,她们给出的平均评分会有所不同,但她们给出的平均排名不会存在差异——一个标准宽松的评估者和一个标准严苛的评估者采用的是相同的排名方式。
事实上,强制排名的主要目的在于减少噪声,它确保了所有评估者都有相同的平均值和相同的评分分布。如果规定了评分的分布,排名就是强制的。例如,某一条规则可能会规定“被评为最优的人数不可以超过被评估者总人数的20%,垫底的人数也不可以少于总人数的15%”。
排名,但不强制
从原则上说,强制排名理应给评估带来巨大的改善,结果却往往适得其反。这里我们不打算就其可能带来的所有不良后果展开讨论,这往往与执行不力有关,而非原则本身的问题,但我们还是可以从强制排名体系的两方面问题中吸取一些具有普遍性的教训。
首先是绝对绩效和相对绩效之间的混淆。任何公司都不可能有98%的经理在绩效表现上跻身群体的前20%、前50%甚至前80%。但如果预期的绩效是事先定义好的绝对绩效,那么经理们都能“达到预期”也并非不可能。
许多高管并不认同几乎所有员工都能达到预期标准这一点,他们认为,如果是这样的话,肯定是期望标准设置得太低了,要不就是因为自鸣得意的组织文化。诚然,这种解释可能是正确的,但大多数员工也可能确实达到了高预期标准,而且在高绩效组织中,这种情况完全有可能出现。例如,当你听说所有成功执行太空任务的宇航员都完全达到了预期标准,你并不会嘲笑国家航天部门的绩效管理程序太过宽松。
重点是,只有当组织关心相对绩效时,依赖于相对评估的体系才是合适的。例如,无论人们的绝对绩效如何,都只有一定比例的人可以晋升,此时,相对评估才可能有意义——参考军队的晋升机制。但是,如果像很多公司那样,评估的目的只是衡量员工的绝对绩效水平,此时强制使用相对排名便不合逻辑了。强制规定将一定比例的员工评为不符合(绝对)预期,这不仅残忍而且荒谬——如果说在一支精锐部队中,有10%的人必须被评为“不满意”,那么这种做法就太愚蠢了。
其次,有些组织认为强制的评估分布反映了潜在的真实绩效分布(通常指接近正态分布),然而,即使群体中的绩效分布是已知的,同样的分布也可能不会出现在一个较小的群体中,如由一名评估者评估的小型员工群体。如果从几千人中随机挑选10人,你不能保证其中一定有两个人属于总体的前20%。“不能保证”是保守的说法,实际上,这种情况发生的概率只有30%。而在实践中,这个问题会更加严重,因为团队的构成不是随机的。一些团队成员可能全是高绩效人员,而另一些团队则可能完全由低绩效人员组成。
在这种情况下,强制排名的做法不可避免地会产生错误和不公正。例如,假设一个评估者所评估的团队由5个绩效表现相同的人组成,他们的实际绩效表现相差无几,而其评分却要符合强制性、差别化的评分分布,这样的做法并不能减少错误,反而会增加错误。
批评强制排名方法的人经常把攻击的重点放在排名原则上,他们谴责这一原则的残忍、不人道,并认为采用这种方法会适得其反。无论你是否接受下述辩驳,强制排名的致命缺陷不是“排名”,而是“强制”。不管是因为将相对量表用于衡量绝对绩效,还是因为做判断者被迫要将无法区分的绩效区分开来,只要判断中强制使用了不合适的量表,不管你怎么选择量表,都会自动增加噪声。
确保有一个达成共识的参考框架
对于各种组织为改进绩效评估的测量方式所做的努力,说其结果“令人失望”都算是保守的,这些努力的结果是:绩效评估的成本直线上升。2015年,世界四大会计师事务所之一德勤(Deloitte)经过计算发现,公司每年要花费200万工时用于评估6.5万名员工的绩效。绩效评估可以说是组织中最可怕的仪式之一,那些不得不进行评估的人和不得不接受评估的人都痛恨绩效评估。一项研究发现,90%的管理者、员工和人力资源主管都认为,他们的绩效管理流程无法实现预期的效果,相关的研究证据也证实了大多数管理者的这种感受。这一发现令人震惊。虽然绩效反馈与员工发展计划相结合时可以带来一些改进,但绩效评估对员工工作积极性的打击同它带来的激励一样大。正如一篇评论文章总结的那样:几十年来,无论人们尝试了什么方法来改进绩效管理流程,绩效评估仍然会产生不准确的信息,并且对提升绩效几乎起不到任何作用。
由于对绩效管理流程感到绝望,越来越多的公司正在考虑做出一种极端的选择:彻底取消评估体系。这场“绩效管理革命”的支持者包括许多技术公司、一些专业服务机构和少数传统行业的公司,他们的目标是关注发展性的、面向未来的反馈,而不是回顾性的评估。有些公司甚至采用非数字型的评估指标,这意味着他们放弃了传统的绩效评估方式。
对于绝大多数没有放弃绩效评估的公司来说,它们可以做些什么来对其进行改善呢?它们可以采用的减少噪声的策略就是选择合适的量表,以确保不同的判断依据的是相同的参照系。研究表明,改进评估方式并对评估者进行培训有助于提高评估者使用量表的一致性。
需要指出的是,绩效评估量表必须使用具体的描述,只有这些描述足够具体,人们对它们的理解才能够保持一致。许多组织都会使用“行为锚定评估量表”(behaviorally anchored rating scales),该量表上的每个评定等级都对应着具体的行为描述,图23-2的左侧给出了一个示例。
图23-2 行为锚定评估量表(左)和案例量表(右)的例子
然而,有证据表明,行为锚定评估量表不足以消除噪声。不过,进一步的参照框架培训(frame-of-reference training)则被证明有助于确保评估者之间的一致性。在这一步流程中,评估者将接受相关培训来对绩效的不同维度进行识别。他们通过视频中的案例来练习进行绩效评估,并通过与专家提供的“真实”评估做比较来了解自己的评估水平。视频中的案例可以作为参考案例,每一个案例都定义了绩效量表上的一个锚定点,这样就形成了一个案例量表,如图23-2的右侧所示。
使用案例量表对每个新成员进行评估时,我们都可以将评估对象与锚定案例做比较,这样一来,评估就变成了一种相对判断。由于相对判断比评分更不容易受到干扰,案例量表比使用数字、形容词或行为描述的量表更可靠。
参照框架培训在几十年前就已经为人们所知,用它进行评估,结果显然更加准确,噪声数量也更小,然而,这种方法却难以得到普及。我们很容易猜到其中的原因,参照框架培训、案例量表以及其他力图达到相同目标的工具都很复杂,而且构建这样的工具需要花费大量时间。为了保证切实可用,它们常常需要根据公司的需求甚至为评估部门专门定制,并且要随着岗位要求的变化而不断更新。这些评估工具要求公司在已经投入巨大资金的绩效管理系统中追加新投入,这与现在的做法背道而驰。在第六部分,我们会介绍更多有关减少噪声成本的内容。
此外,对于任何组织来说,如果控制了评估者在评估过程中的噪声,也就限制了评估者按照自身意图来影响评估的空间。要求管理人员接受额外的评估者培训,在评估过程中投入更多精力并放弃对结果的一些控制,这些举措肯定会面对相当大的阻力。值得注意的是,迄今为止,大多数关于参照框架培训的研究使用的被试都是学生,而非实际管理者。
绩效评估这一大课题产生出了许多现实问题和哲学问题。例如,有些人会问,在当今的组织中,个人绩效的概念在多大程度上是有意义的,因为组织的成果往往取决于人们之间的互动。如果我们认为这个概念确实是有意义的,那么就需要想一想,在一个既定的组织中,个人绩效水平是如何分布的,例如,绩效是否服从正态分布,或者是否存在做出极大贡献的“超级人才”。如果你的目标是让人们表现出最好的一面,那么你自然会问,衡量个人绩效并用衡量结果来激发人们的恐惧与贪婪是不是最好的方法?这是不是有效的方法?
如果你正在设计或修改组织的绩效管理体系,那么你就需要回答以上问题乃至其他更多问题。我们的目的不是研究这些问题,而是提出一个更为温和的建议:如果你确实测量了绩效,你的绩效评估过程很可能充满了系统噪声,因此这些评估过程可能基本上是无用的,甚至会适得其反。减少噪声是一项挑战,因为它无法通过简单的技术修复来解决。它要求评估者对自己做出的判断有清晰的思考。你很有可能会发现,可以对量表进行清晰的界定,可以训练人们始终按照相同的方法使用这一量表,以此来提升判断品质。这种降噪策略也适用于许多其他领域。
· 消除噪声
定义量表至关重要
· 我们在绩效评估上花了很多时间,结果却是,绩效评估结果只有1/4反映了绩效表现,而其他3/4都是系统噪声。
· 我们尝试了用360度反馈和强制排名来解决这个问题,但我们可能会让事情变得更糟。
· 如果出现了很多水平噪声,多半是由于不同的评估者对“好”或“优秀”的含义有完全不同的看法。只有当我们给他们具体的案例作为评估量表上的锚定点时,他们才容易达成一致意见。
第24章
人员招聘,以结构化指标衡量人才
如果你曾经找过工作,那么“招聘面试”这个词可能会唤起你的一些生动而紧张的回忆。工作面试,即求职者与未来的主管或人力专员会面,是进入许多组织的必经之路。
在大多数情况下,面试遵循着既定的流程。在寒暄之后,面试官会要求应聘者描述他们的个人经历,或者详细地描述他们经历过的某些特定情形。再问一些诸如个人成就与挑战、工作动机以及能给公司带来哪些改进之类的问题。面试官通常还会要求应聘者描述自己的个性,并解释为什么认为自己很适合所应聘的职位或公司文化,有时也会问应聘者的兴趣爱好。最后,应聘者通常有机会问面试官一些问题,面试官则会评估这些问题是否重要,以及应聘者是否有洞察力。
如果你的主要工作是负责招聘,那么你所用的甄选方法很可能就包含上述流程中的某些环节。一位组织心理学家指出:“很少有人可以不经过面试就被录用,这样的情况令人难以想象。”然而,几乎所有的专业人士在面试中做招聘决策时,都会在某种程度上依赖直觉性判断。
招聘面试的普遍性反映了人们的一种根深蒂固的观念,即在选择与我们共事之人时非常重视判断的价值。作为一项判断工作,人事选拔有个巨大的优势:由于它的广泛应用以及重要的作用,组织心理学家们对它进行了详尽的研究。1917年《应用心理学》(Journal of Applied Psychology)期刊的创刊号就将招聘确定为“首要问题……因为人的能力毕竟是一个国家最重要的资源”。一个世纪后,我们对各种人才选拔技术(包括标准面试)的有效性有了很多了解。没有任何一项复杂判断任务能得到如此之多的现场实验研究的关注。人事选择因此成为一个完美的测试案例,我们可以将从中获得的经验应用到包括多选项决策的很多判断任务中去。
面试的风险
如果你对求职面试的研究不熟悉,接下来的内容可能会让你大吃一惊。从本质上说,如果你的目标是确定哪些应聘者在工作中会成功,哪些会失败,那么标准面试并不能提供非常有用的信息。更直截了当地说,它们往往毫无用处。标准面试也被称作非结构化面试,它与结构化面试有所不同。我们很快会介绍结构化面试。
为了得出这一结论,无数研究人员考察了评估者在面试中给应聘者的高评分与应聘者最终取得工作上的成功之间的相关性。如果面试中的高评分与成功之间的相关性很高,那么面试或其他以相同方式计算相关性的招聘技巧,都可以被认为是候选人绩效良好的预测指标。
这里需要注意的是,“如何定义成功”是一个非常重要的问题。通常情况下,绩效是基于上级评估的评分而来。有时,工作年限也是衡量成功的标准。当然,这些衡量标准都有一些问题,特别是绩效评估的有效性值得怀疑,这一点我们在上一章中已经指出。然而,为了评估雇主在选择员工时所做判断的品质,使用同一雇主在评估其员工时所做的判断似乎是合理的。
那么,这些分析得出了什么结论呢?在第11章中,我们提到了传统面试的评分与工作绩效评分之间的相关系数是0.28。其他研究报告的相关系数为0.2~0.33。正如我们所看到的,按社会科学的标准,这体现出了很好的相关性。但是,要据此做决策,这一相关性就不算好了。使用我们在第三部分介绍的一致性比率,可以计算出一个概率:根据前面提到的相关水平,如果你对两个候选人的了解只限于一个候选人在面试中比另一个表现得好,那么这个候选人确实比另一个绩效更好的概率仅为56%~61%。这当然比掷硬币好一些,但是据此做出重要决策并不是一个稳妥的方法。
诚然,面试除了对候选人做出判断外,还有其他目的。尤其是,面试为公司提供了一个向候选人推销自己的机会,提供了一个与未来同事建立友好关系的机会。然而,从组织的视角来看,组织在人才选拔上投入了大量时间和精力,面试的最主要目的显然还是选拔。在这项任务上,面试做得并不成功。
面试中的噪声:面试官更倾向于与自己相似的求职者
我们很容易理解为什么传统面试在预测工作绩效时会产生误差。有些误差与我们所谓的客观无知(见第11章)有关。工作绩效取决于很多因素,包括你雇用的人适应新职位的速度,以及各种生活事件对其工作的影响。在招聘时,很多情况都是无法预测的。这种不确定性限制了面试的预测效度,事实上,也限制了任何其他人事选拔技巧的预测效度。
面试也是心理偏差的重灾区。近年来,人们已经意识到,面试官往往无意识地青睐那些与他们有相似的文化背景或共同之处的候选人,涉及的因素包括性别、种族和教育背景。许多公司现在已意识到偏差带来的风险,并试图通过对招聘专家和其他员工实施专项培训来应对这些风险。几十年来,其他一些偏差也逐渐为人们所知。例如,外貌在候选人评估中起着重要作用,即使是那些与外貌无关的职位也是如此。所有或者说绝大多数招聘人员都有这样的偏差,评定具体某个候选人时,如果外貌发挥了作用,招聘者们就会产生一个共同的误差,即在候选人评估中的正偏差或负偏差。
关于面试过程中也存在噪声这一事实,你应该不会感到惊讶:不同的面试官对同一个候选人的反应不同,得出的结论也不同。两位面试官对同一位应聘者的评分的相关系数为0.37~0.44(PC=62%~65%)。其中一个可能的原因是,应聘者在不同面试官面前的表现不一致。但即使是多位面试官同时面试同一位应聘者,前者对后者的表现给出评分的相关性也很低。据一项元分析估计,面试官们的评分相关系数仅为0.74(PC=76%)。这意味着,你和另一位面试官在同一场面试中对同样的两位候选人进行面试,最后仍然有1/4的可能性无法就哪位候选人更优秀达成一致。
这种差异很大程度上是模式噪声的产物,即面试官们对某位应聘者的特殊反应是有差异的。大多数组织在预料到了这种差异后,要求几位面试官面试同一位候选人,并将面试结果以某种方式汇总。通常,汇总意见是通过讨论形成的,在讨论中必须达成共识——正如我们在前文中看到的那样,这一过程本身会产生问题。
一个更令人惊讶的发现是,在面试中存在很多情境噪声。例如,强有力的证据表明,应聘者能否获得面试官的聘用推荐,与面试过程中非正式关系的建立阶段所形成的印象有关。该阶段就是面试刚开始的2~3分钟里,面试官与应聘者寒暄,从而让应聘者放松的阶段。因此第一印象非常重要。
也许你认为,凭第一印象做出判断没什么问题。至少我们从第一印象中了解到的一些东西是有意义的。众所周知,在与新朋友交流的最初几秒钟里,我们确实能了解到一些东西。对于有经验的面试官来说尤其如此。但面试的前几秒钟恰恰反映了你从第一印象中获得的表面特质:早期的认知主要基于应聘者的外向性和语言能力。即使是握手的感觉,也是能否获得面试官推荐的重要预测因素!我们可能都喜欢坚定的握手,但很少有招聘人员会有意识地将握手是否坚定作为关键的聘用标准。
面试官心理学:我们总是太相信“第一印象”
为什么第一印象会对面试的最终结果产生影响?其中一个原因是,在传统面试中,面试官可以自由地将面试引向他们认为合适的方向。他们很可能会问一些能证实第一印象的问题。如果某位应聘者显得害羞和矜持,面试官可能会问一些尖锐的问题,比如询问应聘者过去在团队中工作的经历,但他们可能不会向那些看起来开朗、合群的人问同样的问题。他们收集的这两位候选人的相关证据将不尽相同。一项研究考察了面试官基于应聘者的简历和能力测试成绩,形成了对该应聘者积极或消极的第一印象之后的行为。结果发现,第一印象对面试过程有重要的影响。例如,面试官形成了积极的第一印象后,面试时提出的问题就较少,而且往往会把公司“推销”给应聘者。
第一印象的作用并非面试中唯一有问题的因素。另一个因素是,作为面试官,我们希望面前的候选人表现得合乎情理(在第13章中我们讨论过,这是我们过度寻求一致性的一种表现)。在一个让人难以置信的实验中,研究人员让学生扮演面试官或应聘者的角色,并告诉他们,面试中只能提问封闭式的是非题。然后,他们让一部分应聘者随机地回答问题。按照事先安排好的方法,应聘者会根据问题的首字母来回答“是”或“否”。研究人员有些讽刺地指出:“一些应聘者最初担心随机答题会被人发现他们在胡说八道,从而导致面试进行不下去。但他们的担心是多余的,面试顺利地进行了下去。”你想得没错:没有一位面试官意识到,候选人在随机地给出答案。更糟糕的是,当询问面试官是否能“根据与面试者在一起的这段时间,推断出很多这个人的相关信息”时,得到应聘者随机回答的面试官与得到应聘者如实回答的面试官,在认为自己能做到这一点的概率方面数值差不多。这就是我们创造连贯性的能力。就像我们经常能在随机数据中找到一个想象的模式,或从云的轮廓中想象出一个形状一样,我们能够在完全没有意义的答案中找到逻辑。
还有一些不那么极端的情况,请看下面这个例子:我们中的一人不得不面试一位应聘者,这位应聘者之前是一家中型公司的首席财务官。面试官注意到这个应聘者入职了几个月后就离职了,于是问他为什么这样做。应聘者解释说,是因为“与CEO有战略分歧”。另一位同事也面试了这位应聘者,问了同样的问题,得到了同样的答案。然而,在随后的汇报中,两位面试官的观点却截然不同。其中一位之前就对该候选人形成了积极评价,因此认为候选人离开前公司的决定是正直勇敢的表现。而另一位面试官之前就形成了消极的第一印象,则把同样的事实解释为不灵活,甚至可能是不成熟的表现。这个故事说明,即使我们自认为对候选人的判断完全是以事实为依据的,我们对事实的解释都会受到先前态度的影响。
传统面试的局限性让我们严重怀疑能否从中得出有价值的结论。然而,面试中形成的印象是生动的,面试官通常对此充满信心。当把面试结论和候选人的其他线索结合起来时,我们往往会把面试看得太重,而把其他可能更具有预测性的数据,比如能力测试的成绩看得太轻。
面试的故事是情境噪声在实际生活中的一个例子。应聘教职的教授经常被要求为同行授课,以确保他们的教学技能达到学校的标准。这种授课当然不同于平常的正式授课。有人曾经目睹过一位候选人在这个试讲中给人留下了不好的印象,很明显是因为当时的压力过大,因为候选人的简历中提到了自己曾获得优秀的教学评价和几项优秀教学奖。然而,他在一个高度人为化的情境中的失败表现给人留下了深刻的印象,这种印象所占的决策权重,高于那些代表出色教学表现的抽象数据所占的决策权重。
还要记住,当面试不是唯一的候选人信息来源时,例如,还有能力测试、推荐制度或其他信息时,这些不同的信息必须汇总成一个整体性判断。这引发了一个问题,你现在应该能意识到这一问题:是应该使用判断(诊断性汇总)还是公式(机械性汇总)来汇总信息?正如我们在第9章中看到的,无论是预测一般性工作表现,还是预测具体情况中的工作表现,机械性方法都更好用。可惜,据调查显示,绝大多数人力资源专业人士都更赞成使用诊断性汇总。这种做法给已经充满噪声的面试过程增加了另一个噪声源。
通过结构化流程提升人事筛选品质
如果传统面试和基于判断的招聘决策只会产生有限的预测效度,那么我们该怎么办呢?幸好,研究还提出了一些关于如何改进人员选拔的建议,有一些公司正在关注这些建议。
谷歌就是这样的一个例子。它改进了人员选拔措施并报告了改进的结果。拉斯洛·博克(Laszlo Bock)曾任人力运营部高级副总裁,他在《重新定义团队》(Work Rules!)一书中讲述了这些事情。尽管谷歌专注于招聘最优秀的人才,并投入大量资源寻找合适的人选,但其仍举步维艰。对招聘面试的预测效度进行审查后发现“相关度为0……完全随机得一团糟”。谷歌为解决这一问题所做的变革,体现了近几十年来研究中提出的一些原则。这些变革措施也是决策卫生策略的例子。
其中一个策略是汇总,你应该已经很熟悉它了。人们在这种背景下使用汇总并不奇怪。几乎所有公司都会汇总多个面试官对同一个候选人的评价。谷歌也不甘落后,有时会让求职者参加25轮面试!博克得出的结论之一是面试次数应该减少到4次,因为他发现在4次面试的基础上再增加额外的面试几乎不会提升预测效度。不过为了确保预测效度,谷歌严格执行了一项规定:公司要确保面试官在相互交流之前对候选人进行独立打分。这条规定并不是所有公司都有。谷歌相信:汇总是有效的,前提是判断是独立的。
谷歌还采用了一种我们尚未详述的决策卫生策略:将复杂的判断结构化。结构化一词可以有很多意义。此处使用这个术语时,我们按照3个原则来定义结构化的复杂判断:分解、独立性和推迟整体性判断(delayed holistic judgment)。
第一个原则是分解,它将决策分解为多个组成部分,每个部分对应一个中介评估法。这一步的目的与指南中确定子判断的目的相同:它能确保判断者将注意力集中在重要的线索上。分解就好像一个路线图,指明了需要什么样的数据,并且过滤掉不相关的信息。
以谷歌为例,人事决策可以分解成4个中介评估法:一般性认知能力、领导力、文化契合度(称为“谷歌特质”)和角色相关知识。某些评估会被分解成更小的成分。注意,应聘者的良好外表、流畅的表达、令人兴奋的爱好,以及招聘人员在非结构化面试中可能会注意到的任何其他方面,无论是积极的还是消极的,都不在该列表上。
为招聘任务创建这种评估体系似乎是人们的共识。事实上,如果你正在招聘一名初级会计或行政助理,职位描述中就明确规定了所需的能力。然而,专业招聘人员都知道,对于非常规职位或高级职位来说,对核心评估维度进行定义会很困难,而且定义这一步骤经常被忽视。一位知名的猎头指出,以一种足够具体的方式定义所需能力是一项富有挑战且经常被忽视的任务。他强调了“在问题的定义方面有所投入”对决策者的重要性:与任何候选人会面之前,都有必要提前花一些时间,就那些清晰且详细的职位描述达成一致。这里的挑战是,许多面试官使用的是经过协商或妥协而产生的浮夸的职位描述。这些描述只是一份模糊的清单,列出了一位理想候选人应该具备的所有特征,没有提供如何对这些特征进行调整或在不同特征之间进行权衡和取舍的方法。
结构化判断的第二个原则是独立性,要求独立收集每个评估维度的信息。只列出职位描述的组成部分是不够的:大多数进行传统面试的招聘人员也知道他们要在应聘者身上寻找的四五种能力。问题在于,他们没有在面试过程中单独评估这些因素。每个评估维度都会互相影响,这使得每个评估都充满噪声。
为了克服这一问题,谷歌精心安排了各种方法,以确保评估以事实为基础且相互独立。最明显的举措或许就是引入了结构化的行为面试(structured behavioral interviews)。在这种面试中,面试官的任务不是去决定他们是否喜欢某个候选人,而是收集评估结构中每个评估维度的相关数据,并在每个评估维度上为候选人打分。为此,面试官必须询问候选人在过去的某些情况下的行为,这些问题都是预先设定好的。面试官还必须记录答案,并参照一个预先制定好的评分量表,使用统一的评分标准进行评分。对于每一个问题,评分标准会就一般性答案、好答案或很好的答案给出具体的示例说明。这种标准统一的量表有助于减少判断中的噪声。我们在前一章中介绍的行为锚定评估量表也是它的一个例子。
这种方法听起来不同于传统的聊天式面试,事实也确实如此。这实际上更像是一场考试或审问,而不是一次商业会面。有证据表明,应聘者和面试官都不喜欢结构化面试,或者说,至少更喜欢非结构化面试。究竟什么样的面试才算得上结构化面试,针对这一问题的讨论仍在继续。尽管如此,有关面试的文献研究得出了一个一致的结论:结构化面试比传统的非结构化面试更能预测应聘者未来的表现,结构化面试与工作绩效的相关系数为0.44~0.57。用我们的PC指标来说,你通过结构化面试挑选出更优候选人的概率为65%~69%,明显高于非结构化面试56%~61%的概率。
谷歌在它所关心的一些维度上也使用了其他一些数据作为信息。为了测试与工作相关的知识,谷歌会依赖一部分工作样本测试(work sample tests),比如让应聘者编写几段代码。研究表明,工作样本测试是工作绩效的最佳预测指标之一。谷歌也使用“关系户推荐制”,但推荐人并不是由候选人本人指定,而是由与候选人有交集的谷歌员工指定。
结构化判断的第三个原则是推迟整体性判断,简单概括来说就是:不排除直觉,但推迟直觉。在谷歌,最终的招聘推荐是由招聘委员会共同做出的,该委员会审查候选人的完整资料,包括每次面试中每个评估维度上的评分,以及支持这些评估的其他相关信息。然后,委员会根据这些信息决定是否聘用候选人。
尽管这是一家以数据驱动文化著称的公司,尽管有证据表明机械性汇总数据比诊断性汇总数据更有效,但最终的招聘决策并不是机械性的,它仍然是一个判断。在这个过程中,委员会成员会考虑所有的证据,并对其进行整体权衡,以此来讨论这个人是否会在谷歌取得成功。这个决策不仅仅是计算得出的。
在下一章,我们会解释为什么我们认为用这种方法做出最终决策是明智的。但要注意,虽然决策不是机械性的,但谷歌最终会依据4位面试官给出的平均分做出招聘决策。他们也了解其他一些相关的证据。换句话说,只有在收集和分析了所有证据之后,谷歌才允许决策过程中存在判断和直觉。因此,每个面试官和招聘委员会成员快速形成直观印象并急于做出判断的倾向都得到了控制。
再重述一遍,分解、独立性和推迟整体性判断这三个原则,并不一定能为所有试图改进人事选拔过程的组织提供一个模板。但这些原则与组织心理学家多年来提出的建议基本一致。事实上,这些原则与本书作者卡尼曼于1956年在以色列军队中实施的一些选拔方法有相似之处,并且在《思考,快与慢》一书中有所描述。该选拔过程,就像谷歌公司使用的选拔流程一样,正式建立了一个评估结构——需要评估的性格和能力维度的列表。它要求面试官依次列出与每个维度相关的客观证据,并在评估下一个维度之前对该维度进行评分。并且,它允许招聘人员在进行结构化评估之后再运用判断和直觉做出最终决策。
有不可辩驳的证据表明,结构化的判断过程,包括结构化面试,在招聘中具有优越性。它能为采用这一方法的高管们提供实用性的建议和指导。正如谷歌的例子以及其他研究人员指出的那样,结构化的判断方法成本会更低,因为会面十分耗费时间。
尽管如此,大多数高管仍然相信非正式的、基于面试的方法具有不可替代的价值。值得注意的是,许多应聘者也相信只有通过面对面的面试,他们才能向未来的雇主展示自己真正的实力。研究人员称之为“错觉的持续”。很显然,招聘人员和应聘者都严重低估了招聘判断中的噪声。
· 消除噪声
招聘中的结构化
· 在传统的非正式面试中,我们往往会有一种无法抗拒的直觉,感觉自己了解该应聘者,并且知道这个人是否符合要求。但是,我们必须学会不信任这种感觉。
· 传统面试问题很多,因为其中不仅有偏差,还有噪声。
· 我们必须让面试甚至整个人事选拔过程结构化。我们应该从一开始就更明确、更具体地定义要在候选人身上寻找什么特征,并确保自己在每个维度上独立地对候选人进行了评估。返回搜狐,查看更多