大话机器智能:一书看透AI的底层运行逻辑
上QQ阅读APP看书,第一时间看更新

1.5.1 大数定律的概念和意义

要解释这一现象,统计学中有一个非常重要的理论——大数定律。该定律表明,样本数量越多,结论就越接近真实的概率分布。也就是说,在重复的试验中,随着试验次数不断增加,事件发生的频率会越来越趋于一个稳定的数值,即它的概率。

大数定律最早是由数学家伯努利在他的《推测术》中提出的。该书由4个部分组成,前3部分主要是对古典概率的系统性阐述,第4部分是这本书的精华,主要探讨了概率论在社会、道德和经济领域的应用,其中就提到了大数定律以及它的证明过程。

只有基于大量的统计数据,才能得到更为准确的统计结果。这个结论虽然直觉上好理解,但以前没有人证明过它。伯努利的伟大之处就在于,他用数学严格证明和解释了这个直觉经验:只要通过大量试验,人们观察得到的频率和实际的概率之间的差距就会越来越小,而且只要重复次数足够多,这个误差就能够小于任意小的正数。这也是概率论历史上第一个极限定理。

由伯努利首先研究并推广的大数定律,已经成为整个统计学的基础。随后经过几百年的发展,大数定律的理论体系被不断完善,切比雪夫、辛钦、泊松、马尔可夫等一系列大数定理被提出和证明,它们都是基于大数定律的某种数学表达。不过,人们仍然对伯努利大数定律的哲学意义给出了很高的评价。伯努利自己在《推测术》的最后说道:如果我们能把一切事件永恒地观察下去,那么我们终将发现,世间的一切事物都受到因果律的支配,而我们注定会在种种极其杂乱的现象中认识到某种必然。

大数定律告诉我们,随机事件重复发生后,其可能性结果会趋于一种稳定的状态。它揭示了随机事件发生频率的长期稳定性,体现了偶然之中包含的一种必然。

大数定律已经广泛应用到宏观经济学、量子热力学、空气动力学等各个领域。生活中很多地方也能看到它的身影。比如你想换部手机,于是在网上搜索手机的相关信息,突然发现一个人对某品牌型号的手机赞不绝口,这时你该怎么做?轻易地相信对方?或选择再看看别人的评价?大数定律的建议是,如果评论人数很少,这些评论就不能很好地反映商品的真实价值。那些在网站上排名靠前、评价极高的商品、视频、资讯,可能只是因为有少数人给出了极高的分数,或是商业广告推荐。它们仅仅是个案。只有参考大部分人的评价,才更接近真实情况,数据结论才更有价值。