上QQ阅读APP看书,第一时间看更新
2.1 正态分布
正态分布(Normal Distribution)又称为高斯分布、钟形分布,是连续型随机变量中最重要的分布。世界上绝大多数的分布都属于正态分布,人的身高体重、考试成绩、降水量等都近似服从正态分布。
正态分布的形状如图2-2所示,中间高,两边低,左右对称,如同寺庙里的大钟一样,所以也称为钟形曲线。身高体重、考试成绩也都呈现这一类分布态势:大部分数据集中在某处,小部分往两端倾斜。
图2-2
正态概率密度函数为:
μ代表均值,σ代表标准差,两者不同的取值将会造成不同形状的正态分布。均值表示正态分布的左右偏移,标准差决定曲线的宽度和平坦,标准差越大,曲线越平坦。f(x)曲线下的面积(积分)是1。为什么正态分布的概率密度是这样子呢?在这里我们不进行阐述,有兴趣的同学可以去看看参考书。
一个正态分布的经验法则:正态随机变量有69.3%的值在均值加减一个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内。
因为正态分布是如此的“正常状态”,并且其特别的概率密度函数形态,所以在机器学习中扮演着很重要的角色。
这里举一个简单的例子,我们从上面正态分布的经验法则中看到:99.7%的值在三个标准差内(±3σ)。那么我们可以来判断给定的一个值,如果不在三个标准差内,那么这个数据大概率是异常于该分布的,也就是说可以用来判断异常值。
另外一个例子是,当知道数据是服从正态分布时,首先利用最大似然方法计算出人群最可能的身高参数θ:(u,σ),然后就可以推测某个身高值的概率。最大似然的方法会在第8讲中进行详细讲解。
如果数据存在多个正态分布的叠加,那么这就是接下来要讨论的高斯混合分布。