1.2.4 正态分布是什么
如果你是一位程序员,编程时就一定用过随机(random)函数。它的功能是在特定取值范围内随机生成一些数。这个函数在很多编程语言中是预置的,可以直接调用。例如,要从1到100之间随机生成一个整数,写程序时就要事先定义一个1到100的取值范围,然后调用随机函数,得到一个该取值范围内等概率的随机数,就是说这100个数中出现任何数字的概率都是1/100。用惯了随机函数的程序员会误以为“随机”就代表了均匀分布的数据,即等概率事件。这是一个误区。在现实生活中,绝大多数的随机不是均匀分布的。
举个例子,我们知道抛硬币正反两面朝上的概率各有一半,但如果你真的抛上10次硬币,就会发现硬币正好有5次正面朝上的概率既不是50%,也不是10%,而是在25%左右。因为在自然界中,最普遍的“随机”是正态分布(也称为高斯分布),其分布曲线呈“钟形”,如图1-1所示。
图1-1 正态分布数学函数图
正态分布是一组数据在正常状态下的概率分布。描述这种分布只需要两个参数:一是这组数据的平均值,通常用希腊字母μ来表示,它位于函数图像正中间的坐标位置。二是标准差,通常用希腊字母σ来表示,它代表了这组数据的离散程度。标准差越小,数据就越集中,反之说明数据越分散。
假如一组数据服从正态分布,根据分布特性,其中有68%的数会集中在平均值正负1个标准差区间内,有95%的数会集中在平均值正负2个标准差区间内,有99.7%的数会集中在平均值正负3个标准差区间内。由于3个标准差的区间几乎涵盖了大部分数据,因此它在数学中有着非常广泛的运用,适用于很多场景下的推导和估计。
概括地讲,正态分布说明了“一般的很多,极端的很少”的现象。这种现象生活中很常见。比如,大部分人的身高都在一个区间范围内,太高或太矮的人不多。仔细观察身边的人,可以发现非常聪明或者非常愚笨的人很少。统计全社会范围内的收入,中档次收入的人比较多,特别贫穷和特别富裕的人较少。
人们常说的二八法则(也称帕累托法则),只是换种方式来描述正态分布现象。二八法则告诉我们,20%的富人拥有世界上80%的财富;只要掌握字典中20%的文字就能理解文章80%的内容;20%的超大城市中居住了80%的人口,等等。
正态分布的特性还有其他广泛应用。我们知道,利用多次抽样可以从相对较少的数据中得出令人信服的总体结论。比如只要调研100个人,就能大致了解人类普遍的心理认知。只要抽查100件商品,就能得出这批次商品的质量结论。这些民意调查、商品抽样,都在运用抽样样本对总体进行估计,其背后的数学原理是中心极限定理。中心极限定理从理论上证明了,无论随机变量总体呈现什么分布,只要抽样次数足够大,样本的平均值将近似服从正态分布。也就是说,虽然每个人或者每件商品都会受到大量随机因素的影响,这些因素会对最终状态产生一定影响,但我们不必关心这些因素的细节,而只要把人或商品看成一个整体。该整体的统计规律服从正态分布。
而上述这些情况,才是真实世界中的“随机”。