机器学习的产业实践之路
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.2 从个案学习到统计学习

使用“归纳+演绎”的方式认知世界真的没问题吗?我有一个朋友有吸烟的习惯,以往每次劝他戒烟的时候,他都振振有词地说:“你看名人A吸烟喝酒却活到了80多岁,名人B不吸烟不喝酒但很早就去世了,所以寿命这东西就是命,和吸不吸烟没啥关系!”这个由归纳+演绎得出的结论,堵得我哑口无言。

直到学习过统计学之后,我才找到有效的理论依据来反驳这个观点。如图1-1所示,医院收集了3000个过世病人的资料,包括是否吸烟和寿龄等信息。将这3000个病人分成吸烟和不吸烟的两组,分别画出对应寿龄的概率分布曲线,其呈现为正态分布。

从图1-1可见,无论一个人是否吸烟,均可能过早去世(正态分布的左侧尾巴:差尾巴),也可能活到高寿(正态分布的右侧尾巴:好尾巴),但吸烟人群的寿龄分布整体少5岁(两个分布曲线中线的差距)。这说明,下论断要从整体的统计结果来分析,揪住某些个案是没有太多意义的,或者说容易被引入歧途。因此,该朋友拿两个名人的例子反驳吸烟有害健康的劝说,是“基于少量个案进行的有偏归纳”。

然而在现实世界中,人大多时候是感性的,我们往往会对身边发生的、亲眼看到的个案给予更多的重视,而忽略了整体数据,如以下这些实例:

1)一位勤奋上进的学生发现混日子的同学撞大运发大财,转而对世界和人生无比失望,感叹努力无用。他却没有看到,生活中靠自己努力获得财富和幸福的人比比皆是。

2)管理者使用自己公司的某个产品时,恰巧碰见了问题,进而对整个产品全盘否定,完全不看统计评估的数据。

图1-1 吸烟与不吸烟人群的寿龄分布

3)产品新功能推出后,运营不同客户的同事,一个信誓旦旦地说新功能好,一个则抱怨新功能种种不好,因为他们只是从各自的客户那里得到反馈,谁也没有了解整体数据。

上面的三个例子均是生活和工作中常见的场景,以自己的所见所闻为判断依据是人类的天性,但如果我们的所见所闻只是真实世界的一个抽样,那么需要有足够的理性跳出自己的圈子,以更加宏观、总体的统计数据来认知世界。

用统计的方法理解世界,不过分看重个例,这个貌似简单的道理隐藏着深刻的内涵。它教我们要看重过程,而不是看重单次的结果,因为再好的过程也可能会偶尔失利,但长远来看,好的过程总体上必然导致好的结果。中国人有句老话,做事情要“尽人事,听天命”就是这个道理。比如对于吸烟问题,虽然选择健康的生活方式“不吸烟”,我们会进入更好分布的寿龄曲线(中线为75岁的分布),但依旧无法知道我们的寿龄会处于该曲线的好尾巴(长寿),还是坏尾巴(夭折)。那么,既然“天命”对寿龄影响这么大,我们是否可以不注意健康呢?也不可以,如果不尽人事,我们的寿龄会跌落到更差的曲线上去(中线为70岁的分布)。“人事”决定了我们的寿龄处于哪种分布曲线,“天命”决定了我们的寿龄处于该分布曲线的哪个尾巴,这就是对“尽人事,听天命”的统计学理解。

“人事”决定寿龄处于哪种分布,而“天命”决定寿龄出现在哪种尾巴!

任何事情均是由可控的因素和不可控的因素构成的,即使把可控的因素做到最好,也只能保证我们的寿龄会进入一个比较理想的正态分布,还需要借一定的“东风”才能成事。当然,若选择不思进取,天天好吃懒做,同样也有一定概率处于差分布的好尾巴(如某天中了双色球彩票),得到较好的物质生活;但请注意,这仅仅是极小概率的事件。

近期与几位创业者聊天,发现了一个挺有趣的现象。创业成功者回忆过去的艰难岁月时说:“成功不是投机!”而创业失败者回忆过去的艰难岁月时则说:“看准机遇很重要!”究竟创业拼的是实力还是机遇?恐怕这个事情与寿龄一样,是人事与天命共同决定的结果,努力创业、具备实力只能保证进入一个好的正态分布,而真正创业成功的人,还需要靠运气去挤到该分布的好尾巴上。因此,这两种结论可以说都有道理,但并不全对。因为自我心理认可的需要,创业成功者倾向于夸大人事的部分,而轻天命;创业失败者倾向于夸大天命的部分,而轻人事。

由这些案例可见,从具体案例归纳出来的规律不一定是正确的。不能相信随便从个案归纳出的规律,而要以统计的方式去进行归纳。但只要使用统计的方式,我们就一定能学习到这个世界的真实规律吗?