1.3 基本概率分布模型_机器学习中的数学修炼-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

1.3 基本概率分布模型

概率分布是概率论的基本概念之一，它被用来表述随机变量取值的概率规律。从广义上说，概率分布是指称随机变量的概率性质；从狭义上说，它是指随机变量的概率分布函数（Probability Distribution Function，PDF）。或称累积分布函数。可以将概率分布大致分为离散和连续两种类型。

1.3.1 离散概率分布

1．伯努利分布

伯努利分布（Bernoulli Distribution）又称两点分布。设试验只有两个可能的结果：成功（记为1）与失败（记为0），则称此试验为伯努利试验。若一次伯努利试验成功的概率为p，则其失败的概率为1-p，而一次伯努利试验的成功的次数就服从一个参数为p的伯努利分布。伯努利分布的概率质量函数是

P（X=k）=pk（1-p）1-k， k=0，1

显然，对于一个随机试验，如果它的样本空间只包含两个元素，即S={e₁，e₂}，总能在S上定义一个服从伯努利分布的随机变量

来描述这个随机试验的结果。满足伯努利分布的试验有很多，例如，投掷一枚硬币观察其结果是正面还是反面，或者对新生婴儿的性别进行登记等。

可以证明，如果随机变量X服从伯努利分布，那么它的期望为p，方差为p（1-p）。

2．二项分布

考查由n次独立试验组成的随机现象，它满足以下条件：重复n次随机试验，且这n次试验相互独立；每次试验中只有两种可能的结果，而且这两种结果发生与否互相对立，即每次试验成功的概率为p，失败的概率为1-p。事件发生与否的概率在每一次独立试验中都保持不变。显然，这一系列试验构成了一个n重伯努利试验。重复进行n次独立的伯努利试验，试验结果所满足的分布就称为是二项分布（Binomial Distribution）。当试验次数为1时，二项分布就是伯努利分布。

设X为n次独立重复试验中成功出现的次数，显然X是可以取0，1，2，…，n共n+1个值的离散随机变量，则当X=k时，其概率质量函数表示为

很容易证明，服从二项分布的随机变量X以np为期望，以np（1-p）为方差。

3．负二项分布

如果伯努利试验独立地重复进行，每次成功的概率为p，0<p<1，一直进行到累积出现了r次成功时停止试验，则试验失败的次数服从一个参数为（r，p）的负二项分布。可见，负二项分布与二项分布的区别在于：二项分布是固定试验总次数的独立试验中，成功次数k的分布；而负二项分布是累积到成功r次时即终止的独立试验中，试验总次数的分布。如果令X表示试验的总次数，则

上式之所以成立，是因为要使得第n次试验时正好是第r次成功，那么前n-1次试验中有r-1次成功，且第n次试验必然是成功的。前n-1次试验中有r-1次成功的概率是

而第n次试验成功的概率为p。因为这两件事相互独立，将两个概率相乘就得到前面给出的概率质量函数。而且还可以证明：如果试验一直进行下去，那么最终一定能得到r次成功，即有

若随机变量X的概率质量函数由前面的式子给出，那么称X为参数（r，p）的负二项随机变量。负二项分布又称帕斯卡分布。特别地，参数为（1，p）的负二项分布就是下面将介绍的几何分布。

可以证明，服从负二项分布的随机变量X之期望为r/p，而它的方差为r（1-p）/p2。

4．多项分布

二项分布的典型例子是扔硬币，硬币正面朝上概率为p，重复扔n次硬币，k次为正面的概率即为一个二项分布概率。把二项分布公式推广至多种状态，就得到了多项分布（Multinomial Distribution）。一个典型的例子就是投掷n次骰子，出现1点的次数为y₁，出现2点的次数为y₂，……，出现6点的次数为y₆，那么试验结果所满足的分布就是多项分布，或称多项式分布。

多项分布的PMF为

其中，

5．几何分布

考虑独立重复试验，每次的成功率为p，0<p<1，一直进行到试验成功。如果令X表示需要试验的次数，那么

P X=n()=（1-p）n-1p， n=1，2，…

上式成立是因为要使得X等于n，充分必要条件是前n-1次试验失败而第n次试验成功。又因为假定各次试验都是相互独立的，于是得到上式成立。

由于

这说明试验最终会成功的概率为1。若随机变量的概率质量函数由前式给出，则称该随机变量是参数为p的几何随机变量。

可以证明，服从几何分布的随机变量X之期望等于1/p，而它的方差等于（1-p）/p2。

6．超几何分布

超几何分布是统计学上的一种离散型概率分布，从一个有限总体中进行不放回的采样时常会遇到它。假设N件产品中有M件次品，在不放回的采样中，抽取n件时得到X=k件次品的概率分布就是超几何分布，它的概率质量函数为

其中r=min(n，M)。

最后讨论服从参数为(n，N，M)的超几何随机变量X的期望和方差。

利用恒等式

可得

其中，Y是服从超几何分布的随机变量，其参数为(n-1，N-1，M-1)。因此，在上面的等式中令k=1，有E[X]=nM/N。

再令上面式子中的k=2，可得

后一个等式用到了前面关于超几何分布之期望的计算结果。又由E[X]=nM/N，可推出

令p=M/N，且利用等式

得到

可见，当n远小于N时，即抽取的个数远小于产品总数N时，每次抽取后，总体中的不合格品率p=M/N改变甚微，这时不放回采样就可以近似看成是放回采样，超几何分布可用二项分布近似。

7．泊松分布

最后考虑另外一种重要的离散概率分布——泊松（Poisson）分布。单位时间、单位长度、单位面积、单位体积中发生某一事件的次数常可以用泊松分布刻画。例如，某段高速公路上一年内的交通事故数和某办公室一天中收到的电话数可以认为近似服从泊松分布。泊松分布可以看成是二项分布的特殊情况。在二项分布的伯努利试验中，如果试验次数n很大，而二项分布的概率p很小，且乘积λ=np比较适中，则事件出现次数的概率可以用泊松分布逼近。事实上，二项分布可以看作泊松分布在离散时间上的对应物。泊松分布的概率质量函数为

其中，参数λ是单位时间（或单位面积）内随机事件的平均发生率。

接下来利用二项分布的概率质量函数以及微积分中的一些关于数列极限的知识来证明上述公式。

结论得证。

最后，为了帮助读者更好地理解证明过程，这里对其中一项极限的计算做如下补充解释。因为已知λ=np，并且n→∞，相应地有p→0，于是

或者也可以从另外一个角度证明这个问题，如下

令m=n/λ，显然当n→∞时，有m→∞，于是考虑如下极限

所以，

1.3.2 连续概率分布

1．均匀分布

均匀分布是最简单的连续概率分布。如果连续型随机变量X具有如下概率密度函数

则称X在区间（a，b）上服从均匀分布，记为X～U（a，b）。

在区间（a，b）上服从均匀分布的随机变量X，具有如下意义的等可能性，即它落在区间（a，b）中任意长度的子区间内的可能性是相同的。或者说它落在区间（a，b）的子区间内的概率只依赖于子区间的长度，而与子区间的位置无关。

由概率密度函数的定义式，可得服从均匀分布的随机变量X的累积分布函数为

如果随机变量X在（a，b）上服从均匀分布，那么它的期望就等于该区间的中点的值，即(a+b)/2，而它的方差则等于（b-a）2/12。

2．指数分布

泊松过程的等待时间服从指数分布。若连续型随机变量X的概率密度函数为

其中，λ>0为常数，则称X服从参数为λ的指数分布。如图1-3所示为不同参数下的指数分布概率密度函数图。

由前面给出的概率密度函数，可得满足指数分布的随机变量X的分布函数如下：

图1-3　指数分布的PDF图

特别地，服从指数分布的随机变量X具有以下特别的性质：对于任意s，t>0，有

P{X>s+t|X>s}=P{X>t}

这是因为

上述性质称为无记忆性。如果X是某一元件的寿命，那么该性质表明：已知元件使用了s小时，它总共能用至少s+t小时的条件概率，与从开始使用时算起它至少能使用t小时的概率相等。这就是说，元件对它已使用过s小时是没有记忆的。指数分布的这一特性也正是其应用广泛的原因所在。

如果随机变量X服从以λ为参数的指数分布，那么它的期望等于1/λ，方差等于期望的平方，即1/λ2。

3．正态分布

高斯分布又称正态分布，最早是由法国数学家棣莫弗在求二项分布的渐近公式中得到的。大数学家高斯在研究测量误差时从另一个角度导出了它。后来，拉普拉斯和高斯都对其性质进行过研究。一维高斯分布的概率密度函数为

式中第一个参数μ是遵从高斯分布的随机变量的均值，第二个参数σ是此随机变量的标准差，所以高斯分布可以记作Gauss(μ，σ)。但需要注意的是，此时的记法应写作N（μ，σ2），这里σ2是随机变量的方差。

可以将正态分布函数简单地理解为“计算一定误差出现概率的函数”。例如某工厂生产长度为L的钉子，而由于制造工艺的原因，实际生产出来的钉子长度存在一定的误差d，即钉子的长度在区间(L-d，L+d)，如果想知道生产出的钉子中某一特定长度钉子的概率是多少，就可以利用正态分布函数计算。

设上例中生产出的钉子长度为L₁，则生产出长度为L₁的钉子的概率为p(L₁)，套用上述公式，其中μ取L，σ的取值与实际生产情况有关，则有

设误差x=L₁-L，则

当参数σ取不同值时，p（x）曲线如图1-4所示。可见，正态分布描述了一种概率随误差量增加而逐渐递减的统计模型，正态分布是概率论中最重要的一种分布，经常用来描述测量误差、随机噪声等随机现象。服从正态分布的随机变量的概率分布规律为：取μ邻近的值的概率大，而取离μ越远的值的概率越小；参数σ越小，分布越集中在μ附近，σ越大，分布越分散。通过前面的介绍可知，在高斯分布中，参数σ越小，曲线越高越尖；σ越大，曲线越低越平缓。

图1-4　正态分布

从函数的图像中可以发现，正态分布的概率密度函数是关于μ对称的，且在μ处达到最大值，在正（负）无穷远处取值为0。它的形状是中间高两边低的，图像是一条位于x轴上方的钟形曲线。当μ=0，σ2=1时，称为标准正态分布，记作N(0，1)。

概率积分是标准正态概率密度函数的广义积分，根据基本的概率知识，我们知道

那么如何证明呢？借助本书第1章中已经得到的概率积分就能非常容易地证明上面这个结论。概率积分表明

可以令y=x/，即x=y，然后做变量替换，得

4．伽马分布

伽马函数Γ（x）定义为

根据分部积分法，可以证明伽马函数具有如下递归性质：

Γ(x+1)=xΓ（x）

容易发现，它还可以看作是阶乘在实数集上的延拓，即

Γ（x）=(x-1)!

图1-5　伽马分布的概率密度函数图形

如果随机变量具有密度函数

则称该随机变量具有伽马分布，其参数为(α，λ)，其中α>0称为形状参数，λ>0称为尺度参数。

图1-5演示了固定λ值，α取不同值时的伽马分布概率密度函数图形。可见当α≤1时，函数是单调递减的。当α>1时函数会出现一个单峰，峰值位于x=(α-1)/λ处。随着α值的增大，函数图形变得越来越低矮且平缓。而且α=1的伽马分布就是前面已经介绍过的指数分布。

利用伽马函数的性质，可以算得

即伽马分布的数学期望为α/λ。据此还推出伽马分布的方差为var（X）=α/λ2。

λ=1/2，α=n/2的伽马分布（n是一个正整数）称为自由度为n的χ2分布，记作X～χ2（n），其数学期望E（X）=n，概率密度函数为

设想在n维空间中试图击中某一个靶子，其中各坐标的偏差相互独立且为标准正态分布，则偏差的平方服从自由度为n的χ2分布。χ2分布与正态分布关系密切，它也是统计学中最重要的三大分布之一，本章后面还会再用到它。

5．贝塔分布

贝塔函数的定义为

而且贝塔函数还与伽马函数有如下关系：

如果随机变量具有密度函数

则称该随机变量具有贝塔分布（在其他x处，p（x）=0，上述将此略去未表），记作beta（a，b），其中a>0和b>0都是形状参数。显然贝塔分布的概率密度函数还可以写成

当形状参数中a和b取不同值时，贝塔分布的概率密度函数图形会出现非常显著的差异，如图1-6所示。从图中也可以看出，beta（1，1）在[0，1]区间上均匀分布。

图1-6　贝塔分布的概率密度函数图形

贝塔函数的数学期望为a/（a+b），这是因为

还可以证明贝塔函数的方差为

1.3.3 在R语言中使用内嵌分布

R语言已经为常用的概率分布模型提供了强有力的支持，掌握这些方法可以使用户在进行统计分析时事半功倍，得心应手。

总的来说，R语言中提供了4类有关统计分布的函数：密度函数、（累积）分布函数、分位数函数和随机数函数。它们都与分布的英文名称（或其缩写）相对应。表1-1中列举了R中常用的15种分布的中英文名称、R中的函数名和函数中的参数选项。我们在前面的某些例子中已经体验过了R为这些分布所提供的函数。对于所给的分布函数名，加前缀“d”（代表分布）就得到相应的分布函数（如果是连续函数，则指PDF，对于离散分布，则指PMF）；加前缀“p”（代表累积分布函数或概率）就得到相应的CDF；加前缀“q”（代表分位函数）就得到相应的分位数函数；加前缀“r”（代表随机模拟）就得到相应的随机数产生函数。这4类函数的第一个参数是有规律的。

表1-1 R语言中常用的分布类型

如果R中的分布函数名为func，则形如dfunc的函数就提供了相应的概率分布函数，而且它的第一个参数一般为x，x是一个数值向量。此类函数的调用格式如下：

    dfunc(x, p1, p2, …)

类似地，形如pfunc的函数提供了相应的累积分布函数，它的第一个参数一般为q，q是一个数值向量。此类函数的调用格式为

    pfunc(q, p1, p2, …)

形如qfunc的函数提供了相应的分位数函数，其第一个参数一般为p，p为由概率构成的向量，此类函数的调用格式为

    qfunc(p, p1, p2, …)

形如rfunc的函数提供了相应的随机数生成函数，其第一个参数一般为n，用以指示生成数据的个数。但也有特例，例如rhyper和rwilcox的第一个参数为nn，这两个分布类型在表中并未列出。此类函数的调用格式为

    rfunc(n, p1, p2, …)

上述各表达式中的p1，p2，…对应于具体分布的参数值，即表1-1中所列的各参数选项。在实践中，读者可查阅R帮助文档中的说明了解更多细节。

最后通过几个例子简单演示它们的使用。首先模拟生成10个服从标准正态分布的随机数，可以使用如下语句：

    > rnorm(10)
    [1] 0.23478908  -1.04106797  1.83878341  0.56621874  0.21183802
    [6] -0.41287121  -0.03715736  0.49791239  0.19461168  -0.80418611

在下面这段示例代码中，模拟生成了1000个服从标准正态分布的随机数，并通过这些数据点绘制出相应的概率密度函数图。显然其结果应当是一个接近钟形的图像。然后再通过标准正态分布的概率密度函数直接作图，并将两个结果并列显示在窗口中。

    > normal.pop <- rnorm(1000)
    > par(mfrow = c(1, 2))#准备在一行中绘制两个并列的图
    > plot(density(normal.pop), xlim = c(-4, 4), main = "标准正态分布(模拟)")
    > curve(dnorm(x), from = -4, to = 4, main = "标准正态分布(标准)")

执行上述代码，其运行结果如图1-7所示。

累积分布函数通常是可逆的，这一点非常有用。前面介绍的形如qfunc的分位数函数其实就可以理解成相应累积分布函数的反函数。关于分位数的意义本章后面还有更为详细的介绍。此处仅就分位数函数是累积分布函数的反函数这一点帮助读者建立一个初步的感性认识。为了说明这一点，不妨以二项分布为例，在随机变量0～10取值情况下，绘制其概率质量函数，结果如图1-8（a）所示。

图1-7　绘图结果

然后再生成其相应的累积分布函数，并绘制出图形，其结果如图1-8（b）所示。

图1-8　二项分布的PMF和CDF

最后将生成的累积分布函数的函数值作为输入参数传递给相应的分位数函数，易见所得之结果即为累积分布函数的自变量取值，即证明分位数函数本质上就是相应累积分布函数的反函数。

    > inverse_cdf <- qbinom(cdf, 10, 0. 5)
    > inverse_cdf
    [1] 0  1  2  3  4  5  6  7  8  9  10

有兴趣的读者也可尝试用图形来表达上述函数关系，结果将更加直观。

概率分布是对现实世界中客观规律的高度抽象和数学表达，在统计分析中无处不在。R语言所提供的这些实现和模拟概率分布的函数在实际应用中发挥了极大的作用。