第2章 不再神奇的超级畅销书
1791年12月26日,查尔斯·巴贝奇(Charles Babbage)出生于伦敦。那是一个科技和社会流动性发生巨大变革的时代。巴贝奇对数学非常感兴趣,但他对数学和天文学表格中的人为计算错误感到非常沮丧。这些错误不仅仅是智力上的失败,它们还会带来严重的后果,包括致使船长将轮船驶入暗礁区或者其他危险地带。
当时,在高贵的英国人看来,关注法国数学家是一种不爱国的行为。不过,巴贝奇还是这样做了。他发现法国政府利用一种自动人工系统制作了一些数学表格。在这个系统中,高级数学家确定填充表格所需要的公式,初级数学家将这些公式简化成加减运算。例如,在计算4×8时,我们可以将其简化成加法:8+8+8+8=32。最底层的加减运算是由专业人员完成的,这些专业人员被称为“计算员”。
巴贝奇意识到,从理论上说,人们可以设计出以100%准确率进行加减运算的机器,从而消除人为错误。巴贝奇还知道两个德国人(威廉·席卡德和戈特弗里德·威廉·莱布尼茨)以及伟大的法国数学家布莱士·帕斯卡(Blaise Pascal)设计的计算机。帕斯卡的父亲是法国收税员,因此他在十几岁的时候设计了一台机械计算机,叫做“阿里特马提克”(又叫“帕斯卡利娜”),以便为他的父亲提供帮助。“阿里特马提克”是一个盒子,上面带有一些表盘,它们与盒子里隐藏的轮子相连。每个表盘上标有0到9十个数字。当个位表盘从9移动到0时,十位表盘就会向上移动一个刻度;当十位表盘从9移动到0时,百位表盘就会向上移动一个刻度;依此类推。“阿里特马提克”可以进行加减运算,但是表盘需要手工转动。
巴贝奇将两种思想(将复杂公式转化成简单计算以及简单计算的自动化)融合在一起,设计出了一台机械计算机,可以完美地执行所有计算任务。作为巴贝奇的第一项设计,这台由铜和铁制造、由蒸汽驱动的庞然大物高达2.4米,重达15吨,包含2.5万个不同部件,被称为“差分机”。这台“差分机”可以进行多达20个数位的运算,而且可以将结果打印成格式化表格。在对这项设计进行了10年的小修小补以后,巴贝奇开始规划一台更加强大的计算机,叫做“分析机”。这项设计包含5万多个部件,使用穿孔卡片输入指令和数据,可以存储多达一千个50位数字。“分析机”有一个高达4.5米、直径为1.8米的圆柱形“工厂”,可以执行一个7.5米长的“存储器”发送的指令。这个“存储器”相当于现代计算机的内存,“工厂”相当于现代CPU。
巴贝奇的核心原则非常合理,与现代计算机的工作原理类似。不过,考虑到当时的技术水平,他所提出的机械设计极为庞大,而且他需要不断面对资金限制以及所需部件短缺的困扰。尽管如此,他的宏大视野和对细节的关注仍然使人感到震撼,因此他的大脑(发明了计算机的大脑)一直被保存到了今天,并被展示在英国皇家外科医师学院里。
1991年,在巴贝奇诞辰200周年之际,伦敦科学博物馆根据巴贝奇最初的计划制作了几台计算机,包括第二代差分机。这台机器和他预想的一样精确,可以进行多达31个数位的计算。2011年,有人开展了一个名为“第28号计划”的私人非营利项目,用于制造巴贝奇的分析机,希望用巴贝奇领先时代一百年的超前思维激发我们的灵感。项目预计将在2021年巴贝奇逝世150周年之前完工。
由于巴贝奇的思想比他的时代领先了一个世纪,因此许多人对他的想法感到困惑。他在自传中回忆道:
有两次,(国会成员)问我:“请问,巴贝奇先生,如果你把错误的数字输入到机器里,机器会输出正确答案吗?”……我不太理解引发这种问题的混乱思想。
即使是在计算机已经普及的今天,许多具有良好出发点的人仍然坚持着这种错误观念:由于计算机不会犯下运算错误,因此它们是绝对可靠的。哈佛校友杂志2014年的一篇文章声称:“只要能够对足够多的信息进行量化,现代统计方法一定能够得出比一个人或者一小部分人更加正确的结论。”我们可以认为这种说法由于过于拐弯抹角而失去了意义,也可以认为这种说法是完全错误的。
事实上,如果我们让计算机去做一些愚蠢的事情,它也会忠实地遵从我们的命令。有一句俗语叫做“输入垃圾,输出垃圾”。也就是说,不管计算机多么强大,输出的价值仅仅取决于输入的质量。这种说法的另一个版本叫做“输入垃圾,输出福音”,它意味着人们往往过度相信计算机生成的结果,不会对输入进行审慎的思考。如果计算机的计算以不良数据为基础,那么它不会输出福音,只会输出垃圾。
遗憾的是,许许多多的人盲目崇拜基于误导性数据的计算。下面是几个例子。
△去最好的学校
《纽约时报》华盛顿分部主任戴维·莱昂哈特(David Leonhardt)关于经济主题的作品获得了包括普利策奖在内的多个奖项。2009年,他为《纽约时报》撰写了一篇专栏文章,对《穿越终点线》一书作了介绍。此书是由两位前大学校长威廉·鲍文(William Bowen)和迈克尔·麦克弗森(Michael McPherson)以及一位博士研究生共同撰写的,其中后一位作者负责的很可能是分析68所大学20万学生数据的繁重工作。这本书的核心观点是,美国在“说服学生上大学”方面表现不错,但在“培养学生从大学毕业”方面则表现得不太理想。半数大学生无法毕业。
他们发现的第一个“罪魁祸首”是匹配不足:一些学生本来可以去毕业率较高的大学,但他们却选择了毕业率较低的大学。鲍文教授告诉莱昂哈特:“许多来自贫困家庭的学生本来有更好的选择,但他们并没有就读适合自己的学校,这使我感到极为震惊。”总体而言,在学分积点高于3.5、大学入学考试成绩高于1200分的低收入准大学生中,大约有一半的人并没有选择更好的学校。
例如,90%的密歇根大学学生可以在6年内毕业。在东密歇根大学,这个比例只有40%。许多成绩足以进入密歇根大学的学生选择了东密歇根大学。要想从经济上解决这种匹配不足的问题,我们可以提高东密歇根大学的学费,或者降低密歇根大学的学费,以激励学生选择毕业率更高的学校。
实际情况并没有这么简单。这些数据都是垃圾,结论也不是什么福音。如果让这些所谓的“匹配不足”的学生就读密歇根大学,他们的毕业率可能会变得更低。研究人员认为这些学生是随机分配到密歇根大学或东密歇根大学的,就像医生被随机分配阿司匹林或安慰剂一样。不过,大学决策并不是科学实验。
当数据涉及人们的选择时(比如当人们选择上大学、结婚或者要孩子时),就会出现“自选择偏差”。在这种情况下,对于做出不同选择的人进行比较的做法是靠不住的。例如,我们常常听人说,大学毕业生的工资高于高中毕业生,似乎人们观察到的工资差异可以衡量上大学的财务回报。不过,大学毕业生之所以工资比较高,部分原因在于他们比不上大学的人更聪明,更有抱负。实际上,做出不同选择的人本身可能就是不同的。
类似地,上述“匹配不足”的观点也存在自选择偏差。学生不仅会选择上大学,他们还会选择上哪所大学。许多学生之所以选择东密歇根大学,而不是密歇根大学,也许是因为他们觉得自己很难从密歇根大学毕业。这可能是正确的选择。毕竟,他们比我们更了解自己的情况。虽然东密歇根大学的总体毕业率较低,但我们无法从数据中判断出是否每个能够上密歇根大学但选择了东密歇根大学的学生都能毕业。
在我们通过观察人们的行为而收集的“观测性数据”中,自选择偏差非常普遍。人们可以选择自己的行为,因此他们的选择也许反映了自身的特点。要想避免这种自选择偏差,可以进行对照实验,即将人们随机分配到不同的小组里,然后告诉他们应该怎样做。不过,研究人员很少有权力仅仅由于自己需要实验数据而强迫我们去做自己不想做的事情,这对我们所有人来说都是一件幸运的事情。
要想进行有效的“匹配不足”研究,我们可以将那些同时被密歇根大学和东密歇根大学录取的学生随机分配到某一所大学里。然后,我们可以对两个小组的毕业率进行比较。实际上,在20世纪60年代,有人曾在密歇根州伊普西兰提市做过类似的事情,尽管这听起来有些不可思议。当时,在一项实验性学前教育计划中,人们根据抛硬币的结果决定是否允许家庭社会经济地位不高的黑人孩子进入学前班。这项研究发现,上过学前班的学生高中毕业和找到工作的可能性较高,被逮捕的可能性较低。这项实验证明了学前教育的价值,尽管它对输掉硬币游戏的孩子来说似乎有些残酷。
巧合的是,东密歇根大学就在伊普西兰提市。更加巧合的是,2012年,东密歇根大学错误地向7700名学生(学生总数的三分之一)发送了电子邮件,称他们遭到了学校的开除。校长为这个“不可原谅的错误”道了歉。如果这些学生真的被开除,学校的毕业率将会变得更低。
莱昂哈特《纽约时报》专栏的一位读者发表了一条评论,认为教育质量比毕业率更加重要。(否则,我们可以抛弃论文、考试和出勤等令人讨厌的要求,直接向所有学生发放文凭,将毕业率提升至100%。)莱昂哈特回复道:“大学毕业生的平均工资比大学辍学生高出54%,所以学位看上去显然具有经济意义。”这又是一种自选择偏差!选择上大学并通过努力学习获得学位的学生显然与大学辍学生存在系统性差异。
△投票人数越多越好?
美国只有大约一半的合格选民在总统选举中投票。为了提高这个百分比,一个有趣的建议是将不投票的人的名字张贴在当地报纸或者互联网上,以便使他们感到羞愧。2014年,《纽约时报》提出了一个更加激进的解决方案:
惩罚和监禁是导致人们不再参与政治(比如投票或政治实践)的两个原因……一份针对美国城市最边缘群体的大规模调查发现,在曾被警察拦截和盘问的群体中,投票概率降低了8%;在曾被逮捕的群体中,投票概率降低了16%;在被定罪的群体中,投票概率降低了18%;在曾经遭到拘留或监禁的群体中,投票概率降低了22%。
这段文字显然暗示了这样一条信息:如果减少逮捕和定罪,投票率将得到极大的提高。
在解雇警察之前,别忘了,这些数据都是观测性数据。也许,遭到盘问、逮捕和定罪的人并不是从人群中随机选择的。也许,他们曾经犯下罪行。也许,不投票的人更有可能犯罪,减少逮捕和定罪并不会提高投票率。
△一醉方休
饮酒是一个长期困扰许多大学的问题,而且常常是辍学的一个驱动因素。即使校园内部禁酒,一些学生也会令人遗憾地在周围街区由于醉酒而遭到逮捕。学生为自己被逮捕而苦恼,教授为学生不学习而苦恼,家长为大学没有监督和保护自己的儿女而苦恼。
“代替父母”原则意味着大学在法律上拥有保护学生、不让他们做出错误决定的权力和职责。这个原则的应用经历了许多波折。不过,许多大学完全有理由感到担忧。一些学生和家长曾经控告学校没能尽到家长的义务。逮捕和死亡事件对入学申请也会产生负面影响,而入学申请又是大学的生命线。
1984年,弗吉尼亚理工学院心理学教授E.斯科特·盖勒(E. Scott Geller)在美国心理学协会的年度会议上发表了一篇研究论文,介绍了他在弗吉尼亚理工学院附近的三家酒吧里观察到的现象。(这比待在科学实验室里要有趣得多!)他发现,平均而言,以桶为单位要啤酒的人喝下的啤酒是以杯或瓶为单位要啤酒的人的两倍以上。他的结论是:“如果我们禁止使用啤酒桶,饮酒问题将会得到重大改善。”这一结论在全国范围内得到了发表。
盖勒发表过超过350篇研究论文,并且凭借将行为科学运用到现实生活中的出色表现获得了大学校友杰出研究奖和校友服务奖。不过,上面这项研究不在他做过的那些优秀研究的范围之内。根据常识,我们知道,这项研究中存在自选择偏差,因为以桶为单位要啤酒的人一定是想一醉方休,而且他们通常能够实现这个目标。他们也许面临着某种将花过钱的啤酒喝完的心理压力,但即使换成酒杯或酒瓶,豪饮者也不会改变自己大量饮酒的意愿。
在漫长而多产的职业生涯中,盖勒对大学饮酒问题进行了许多研究,在进行上述酒吧研究的27年以后,在2011年美国心理学协会会议上,他承认了一个显而易见的事实:许多大学生“想要一醉方休……我们在多项研究中指出,他们的意图会影响他们的行为。如果他们想要喝醉,那么你很难阻止这件事的发生。”
△放下遥控器
电视频道如此众多,精彩节目却寥寥无几。照本宣科的真人秀;由缺乏才能的选手参与的才艺竞赛;某博士告诉人们(可能是演员)他们很优秀;某鉴定专家告诉人们(可能是演员)他们很愚蠢;喜剧节目不断出现令人讨厌的背景笑声。也许,看电视时关掉声音会让人减少几分痛苦?
美国最受尊重的广播和电视新闻工作者爱德华·R.默罗(Edward R. Murrow)曾说过:“电视的主要用途是欺骗和孤立我们,转移我们的注意力,逗我们开心。”这是1958年的事情,那是所谓的“电视黄金时代”。时至今日,情况并没有任何好转。
科学家很早就知道,看电视会使人的脑电波从敏捷而符合逻辑的贝塔波转变成放松而发散的阿尔法波。加里·拉尔森(Gary Larson)制作了一集优秀的动画片,名为《电视机产生之前的日子》,展示了一家人懒洋洋地躺在地板和沙发上、盯着一面空白墙壁的情景。
不管你观看的是空白的墙壁还是闪闪发光的“灯箱”,这种无须动脑的注视(常常伴随着心不在焉的吃喝)都会为你带来危害。2011年,一群研究人员报告说,在澳大利亚,每天用6个小时看电视的人比从不看电视的人平均早死5年。简单计算一下,你会发现,在25岁以后,每看一个小时电视,寿命预期就会减少22分钟。你不仅在茫然的凝视中浪费了一个小时,而且额外失去了22分钟的生命。考虑到人们一生中看电视的习惯,研究人员得出的结论是,如果以法律形式禁止看电视,人们的寿命预期可以提高两年左右。
和之前一样,问题在于,这些数据是具有自选择偏差的观测性数据。也许,同那些拥有更加有趣的事情去做,而且自身健康状况足以支持他们这样做的人相比,选择整天看电视的人更加安静,更加抑郁,或者健康状况不是很理想。要想进行有效的实验,我们应该选择两个小组,禁止一组看电视,强迫另一组每天看6个小时电视。如果我被随机分到禁止看电视的小组,我会感到难过的。
△请原谅我的直白
在灾难性的滑铁卢战役之前的早餐上,拿破仑宣布:“威灵顿是差劲的将军,英国士兵是一群乌合之众;我们将在午饭之前解决战斗。”对许多人来说,这个故事再一次证明了法国人令人讨厌而又毫无根据的傲慢。不过,美国运通和法国旅游局的一项研究发现,大多数过去两年对法国进行过一次以上休闲旅游的美国人并不认为法国人不友好。他们究竟是如何得到这个结论的呢?
下面是一种方法。假设一名研究员受雇证明法国是一个休闲旅行的好去处。这名研究员可以进行一项简单的调查,调查内容如下:
1.过去两年你对法国进行过几次商务旅行?
2.过去两年你对法国进行过几次休闲(非商务)旅行?
3.你是否认为法国人不友好?
假设大多数只对法国进行过一次商务旅行的人认为法国人不友好。这也是他们从不自愿前往法国的原因。研究员将这些人的回答扔到一边。
假设大多数从未去过法国的人认为法国人不友好。这也是他们从不前往法国的原因。研究员将这些人的回答扔到一边。
假设大多数只对法国进行过一次休闲旅行的人认为法国人不友好。这也是他们从不再次前往法国的原因。研究员将这些人的回答扔到一边。
假设大多数对法国进行过不止一次休闲旅行的人不认为法国人不友好。太好了!这正是研究员想要的回答。法国旅游局可以根据这些回答进行广告宣传:大多数过去两年对法国进行过不止一次休闲旅行的美国人不认为法国人不友好。
从字面上看,这种说法是正确的,但它具有欺骗性。这种说法存在自选择偏差,因为选择重返法国的人几乎一定在上次旅行时玩得很开心。不过,这种说法向人们提供了错误的暗示:大多数曾经去过法国的人希望再次前往法国。
这种偏差隐藏在所有顾客满意度调查中。一家航空公司曾经打出这样的广告:在经常从纽约前往芝加哥的商业旅行者中,84%的人更喜欢这家航空公司,而不是另一家航空公司。这个广告令人困惑的地方在于,在从纽约飞往芝加哥的旅行者中,只有8%的人选择这家航空公司。如果84%的旅行者更喜欢这家公司,为什么选择这家公司的旅客只有8%呢?
答案是,84%这个数字所依据的调查对象是该公司从纽约飞往芝加哥的一架航班上的乘客。选择这家航空公司的旅行者更喜欢这家公司,这没有什么好奇怪的。真正奇怪的是,还有16%的旅客更喜欢另一家航空公司。不过,我们很难想象航空公司会打出这样的广告:“在乘坐我公司飞机的旅客中,16%的人感到后悔。”
△只有弱者留下来
自选择偏差并不是观测性数据的唯一潜在问题。20世纪70年代,一项集体诉讼认为密西西比州戈斯市“佐治亚-太平洋锯木厂”在初始工作分配和晋升方面歧视黑人。该厂50%的劳动力是黑人,但大多数黑人员工进入工厂时从事的是级别最低的工作类型(“公用事业”),而且从未获得晋升。
在审讯中,工厂经理承认,电工长是工厂里唯一需要事先具备一定技能的工作岗位。其他所有岗位需要的技能都可以在工作中学习。公司的管理层也证实,雇用和晋升决策具有主观性,没有任何书面程序或具体标准。关于高级工作岗位黑人相对较少的原因,工厂经理的核心观点是:“同承担责任、付出额外的辛苦、延长工作时间相比,黑人更喜欢从事不需要太多技能的工作。”
美国上诉法院第五巡回法庭并没有被这种具有侮辱性的观点说服。他们引用了美国最高法院在“黑泽尔伍德校区诉美国案”中的观点:“在可以证明总体统计性差异的时候,这种差异本身可以……构成歧视模式或实践的初步证据。”他们还补充说:“‘差异性对待’案件通常要求提供歧视动机的证据,而作为一种便捷的歧视机制,公司官员缺乏标准的主观决策的证据可以满足这种要求。”
法庭的结论当然是正确的,但其统计性证据的某个部分却存在一个被所有人忽视的微妙缺陷。法庭展示了6年前进入公司入门级公用事业岗位并且领取相同工资的11名员工1976年的工资。1976年,5名白人员工的平均工资是3.88美元,6名黑人员工的平均工资则只有2.99美元。这似乎是工资歧视的明显证据。不过,事情并没有这么简单。
这些数据属于回溯性数据。也就是说,这项研究选择了一群员工,然后回顾他们的情况,而不是考察他们未来的情况。在前瞻性研究中,研究人员选择一个样本,然后监督它在一段时间里的变化。例如,你可以每年对1000个人进行医学检查,以查看饮食与心脏病之间是否存在关联。你也可以每年对1000家公司进行观测,以查看分红政策与股票表现之间是否存在关联。相反,在回溯性研究中,研究人员选择一个样本,然后考察它的历史,比如考察1000名老年女性的医疗记录或者1000家公司过去的表现。
回溯性研究往往存在幸存者偏差。也就是说,当我们选择现在的样本并回顾过去时,我们只能看到幸存者。老年人的历史医疗记录中排除了没有活到老年的个体。公司财务历史记录中排除了已经破产的公司。
对1970年入职的员工1976年的工资进行比较的做法是一种回溯性研究,因为它只考察了1976年仍然留在公司的员工,排除了1970年入职后自愿或被迫离开公司的人。假设公司在1970年以完全相同的工资雇用了10个白人和10个黑人,而且每个群体里有一半的人工作效率很高,一半的人工作效率不高。进一步说,假设在这6年时间里,在所有种族群体之中,效率很高的员工的工资提高了30%,效率不高的员工的工资提高了10%。如果所有20名员工1976年仍然留在公司里,白人和黑人的平均工资将会持平。不过,如果效率不高的白人员工被解雇,留下来的白人的平均工资将高于黑人的平均工资。如果效率很高的黑人员工离开公司,以追求更好的工作,那么白人的平均工资也将高于黑人的平均工资。我们并不知道这些事情是否真的发生过。关键问题是,回溯性研究无法完整地描述1970年入职的所有员工的情况。
许多观测性研究存在幸存者偏差。例如,健康维护组织在一项调查中发现,超过90%的成员对该组织感到满意。这里存在两种幸存者偏差,它们都在推高调查的满意度:一些人由于不满意而退出了这项计划,还有一些人离开了人世。
红狮酒店曾经打出占据整整一个版面的广告:“在曾经入住红狮的商务旅行者中,98%的旅行者还会再次选择我们。”原来,该公司对酒店里的顾客进行了一项调查,其中98%的人表示“他们在旅行时通常会选择红狮酒店”。显然,只住过一次红狮酒店的人并没有被这项调查包括在内。
下面是一个更加微妙的例子。有人对纽约市兽医院接收的从高层公寓楼坠落的115只猫咪进行了调查,发现从9层以及上楼层坠落的猫咪的死亡率为5%,从不足9层的楼层坠落的猫咪的死亡率为10%。根据医生的推测,这是因为从较高楼层坠落的猫咪能够将身体伸展开,形成一种降落伞效应。还有其他解释吗?
这个例子存在幸存者偏差,因为坠落后死亡的猫咪不会被送到医院。而且,许多猫主会放弃那些从高层坠落后奄奄一息的猫咪,而从较低楼层坠落的猫咪的主人往往更加乐观,更愿意花钱带它们去医院。
△被损坏的飞机
二战期间,英国皇家空军(RAF)计划在飞机上安装厚钢板,以帮助它们抵抗德国战斗机和陆基高射炮的攻击。这些防护板极为沉重,无法用来覆盖整个飞机,因此英国皇家空军开始对结束轰炸任务的飞机进行调查,以收集飞机上子弹孔和弹片孔的位置数据。图2.1是一张示意图。如图所示,大多数弹孔位于机翼和飞机尾部,驾驶舱、发动机和油箱的弹孔则非常稀少——这说明防护板应当安装在机翼和飞机尾部。你同意这种观点吗?
图2.1 哪些部位需要加强防护?
逃到美国的匈牙利犹太人亚伯拉罕·瓦尔德(Abraham Wald)敏锐地意识到,这些数据存在幸存者偏差。返航飞机的驾驶舱和油箱之所以很少出现弹孔,是因为这些部位被击中的飞机无法存活下来并返回英国。返航飞机在机翼上出现弹孔的可能性更大,因为这些弹孔的伤害很小。瓦尔德的建议与最初的结论完全相反:他们应当加固没有弹孔的位置,而不是弹孔最多的位置。
这个办法发挥了作用。被击落的飞机数量大幅减少,安全返航并且可以重新投入战斗的飞机数量大幅增加。瓦尔德清晰的思路为战争的胜利做出了贡献。
△畅销书的秘密
在撰写畅销书《从优秀到卓越》之前,吉姆·柯林斯(Jim Collins)及其研究团队花了5年时间,考察了1435家公司40年的历史,发现了股价表现优于平均水平的11家公司:
柯林斯对11家大公司进行了一番详细检查,发现了一些共同特点,并为每个特点起了一个吸引眼球的名字,比如第五级领导者——具有谦逊的个人品质和职业驱动力、能够将公司打造成卓越企业的领导者。
柯林斯将他的工作描述成“寻找适用于一家组织的永恒而普遍的答案”。通过研究,他找到了他所寻找的宝藏:“只要认真使用我们所发现的思想框架,几乎任何组织都可以极大提高自身的境界和表现,甚至成为一家卓越的组织。”那些想要相信他的读者的确相信了他。《从优秀到卓越》的销量突破了400万部,而且进入了一些史上最佳管理类书籍的排行榜之中。
当然,问题在于,这是一项存在幸存者偏差的回溯性研究。下面是正确的研究方法。首先,选择这个40年时间段开始时存在的一组公司。它们可以是标普500指数中的所有公司,纽约股票交易所的所有上市公司,或者其他某个名单上的公司。重点是,这份名单应当始于40年前。接着,使用看上去合理的标准预测出表现优于其他公司的11家公司。这些标准必须具有客观性,不能参考这些公司未来40年的表现。先去查看哪些公司表现出色,然后再去预测哪些公司表现出色的做法是不公平的,也是没有意义的。这不是预测,只是回顾。
在选定11家公司以后,我们可以比较它们与其他公司在接下来40年时间里的表现。如果柯林斯是这样做的,那么11家公司中的某些公司无疑会令人失望。一些公司可能会破产。一些公司可能不会被他选中。这就是世界的残酷性。不过,这也将是一种公平的比较。
柯林斯并没有这样做。他在40年时间段结束时选择了11家成功的公司,以确保它们不会令人失望。柯林斯曾写道,他“直接根据数据进行了经验性推断,得出了所有概念”。他觉得他在宣扬自己的研究具有专业性,没有偏差;这些内容不是他编造出来的;他的一切观点都是通过数据推导出来的。
实际上,柯林斯承认了他对一些公司的表现优于其他公司的原因一无所知。他告诉人们,他对“根据数据推导理论”的危险性浑然不觉。为了支持这种理论在统计上的合法性,柯林斯找到了科罗拉多大学的两位教授。一位教授说:“你的框架中的概念随机出现的概率几乎为零。”另一位教授说得更加具体,他说道:“这11家公司的员工表现出了你所发现的主要特点,而它们的直接比较对象并不具备这些特点。那么,随机找到这样11家公司的概率是多少呢?”根据他的计算,这个概率不到一千七百万分之一。柯林斯的结论是:“找到11个恰好具有我们所寻找的‘从优秀到卓越’模式的随机事件的可能性几乎为零。我们可以充满信心地得出结论:我们所找到的特点与从优秀到卓越的转变存在紧密的联系。”
我不知道这个一千七百万分之一的概率是如何计算出来的(我联系了这位教授,他说他不记得了),但我至少知道它是不正确的。这位教授的计算假定这五个特点是在查看数据之前确定的。事实并非如此,因此这种计算没有任何意义。正确的概率不是一千七百万分之一,而是1。没错,是100%。
假设我抓到了五张扑克牌:黑桃3、黑桃8、方片8、红桃Q、黑桃A。这不是很神奇吗?抓到这把牌的可能性大约是三百万分之一,但它竟然出现在我的眼前!如果我在抓牌之前正确预测出了这五张牌,那才是一件神奇的事情。不过,如果我在抓到这把牌以后再去预测,那就一点也不神奇了。在我看到这把牌以后,拥有这五张牌的概率是1,不是三百万分之一。
如果我们回顾历史上的任何一组公司,不管是最优秀的公司还是最糟糕的公司,我们总能发现一些共同特点。瞧,柯林斯选择的11家公司的名字里都有一个字母i或r,有几家公司既有i又有r。从优秀到卓越的关键是确保公司名称中有一个i或r吗?当然不是。
先选择公司、然后寻找共同特点的做法既不令人意外,也不令人感兴趣。真正有趣的问题是,这些共同特点是否能够预测哪些公司将在未来取得成功。
对于上面11家公司来说,答案是否定的。房利美的股价从2001年的每股80美元以上变成了2008年的每股不到1美元。电路城在2009年破产。在《从优秀到卓越》出版以后,其他9家公司在股市上的表现非常平庸。从图书出版到2012年,五只股票的表现优于股市整体水平,六只股票的表现不如股市整体水平。
20年前,另一部关于企业的畅销书做了一件非常类似的事情,这件事也存在完全相同的问题。这种循环现象给我们带来的真正教训是,写作这些书籍的作者和购买这些书籍的数百万读者没有意识到书中的本质缺陷。
世界顶级咨询公司之一麦肯锡公司要求两名默默无闻的咨询师汤姆·彼得斯(Tom Peters)和罗伯特·沃特曼(Robert Waterman)对几家成功的公司进行研究。彼得斯和沃特曼与麦肯锡的其他咨询师进行了交谈,列出了43家拥有良好声望和雄厚资金的公司。接着,他们与经理们进行交谈,并且阅读杂志上的故事,以寻找共同的主题。根据这项相当随意的研究,他们写出了一部极具影响力、极为成功的书籍《追求卓越》。此书列出了彼得斯和沃特曼在43家优秀公司中发现的8个共同因素,比如偏爱行动和接近顾客。这也是一项回溯性研究。我们无法知道“偏爱行动”(不管这种说法的含义是什么)的公司是否比其他公司更加成功,或者过去表现出色的公司能否在未来表现出色。
在这43家公司中,35家公司拥有公开交易的股票。在这本书出版以后,15家公司的表现优于股市的整体水平,20家公司的表现不及股市的整体水平。柯林斯、彼得斯和沃特曼并没有提供任何证据证明他们所描述的特点是这些公司过去取得成功的原因。要想做到这一点,他们需要提供这些特点的理论证据,在不知道公司拥有或没有这些特点的情况下选择公司,然后根据某种事先确定的衡量标准监督它们的表现。这些作者并没有开展这样的工作。
对成功的企业、婚姻和人生进行回溯性研究的所有书籍都存在这个问题,包括成功企业、持久婚姻、活到百岁的方法/秘密/诀窍等。这类书籍存在固有的幸存者偏差。如果我们觉得自己知道成功的任何秘密,一个有效的检验方法是找到拥有这些特点的企业或个人,然后查看他们未来10年、20年或50年的表现。否则,我们仅仅是在考察过去,而不是在预测未来。
×如何轻松识破一本正经地胡说八道
我们会观察人们的工作、游戏和生活,而且我们会自然而然地根据我们看到的现象得出结论。我们的结论可能会失真,因为这些人所做的事情是他们自己选择的。我们观察到的特点可能并非源于活动,而是反映了选择这种活动的人的个性。
如果有人告诉我们,参与竞争性体育运动的孩子非常自信,我们不应该认为竞争性体育运动可以增强自信。也许,自信的孩子喜欢参与竞争性运动。如果有人告诉我们,华尔街的工作人员很有进取心,我们不应该认为华尔街可以培养进取心。也许,华尔街容易吸引具有进取心的人。如果获得普利策奖的新闻工作者和获得大学卓越奖项的人都会受到自选择偏差的欺骗,那么我们所有人都需要保持警惕。
我们会自然而然地根据我们看到的现象得出结论——工人的工资、受损的飞机、成功的公司。我们还应当考虑到我们没有看到的事情——离职的员工、没有返航的飞机、失败的公司。我们没有看到的数据可能和我们看到的数据一样重要,甚至更加重要。为避免幸存者偏差,应当从过去开始并向未来展望。查看20年前受雇的人员、出发参与轰炸任务的飞机、40年前处于经营状态的公司——然后查看接下来发生了什么。