2.2 概率及其计算
2.2.1 概率与条件概率
概率的定义如下:对于一个随机试验,全体基本事件有n个,若事件A包含m个基本事件,则事件A的概率为
在调查学生身高与体重关系的试验中,可以将学生的身高视为一个变量,我们用X表示,X=175cm的概率可以表示为P(X=175cm),表示在所有学生中随机选出一个学生,其身高等于175cm的概率。更一般的情况是,变量X=x的概率表示为P(X=x),为简化书写,根据上下文,这个表达式通常可以缩写为P(x)。我们也可以描述多个变量同时取值的概率,比如,X=x同时Y=y的概率可以表达为P(X=x,Y=y)或者缩写为P(x,y)。
事件B已经发生的情况下事件A发生的概率,称为给定B条件下A的条件概率。给定Y=y条件下X=x的条件概率,表示为P(X=x|Y=y)。和无条件概率类似,这个表达式也可以缩写为P(x|y)。通常,X=x在给定Y=y条件下的条件概率,与无条件的X=x的概率相比有较大的变化。一个直观的例子是,一般人患糖尿病的概率比较低,但是,在直系亲属患糖尿病的条件下,则患糖尿病的概率将大大增加。
在给定数据集中根据频率估算条件概率时,可以将条件视为一个或多个变量的取值,再根据一个或多个变量的取值情况对数据集进行过滤、计算。我们以某地企业年产值的统计为例,来具体说明如何在数据集的基础上通过过滤实现条件概率的计算。
例2.1 我们统计某地工业企业的年产值分布情况,得到如表2.1所示的数据集。
表2.1 企业年产值分布统计
在表2.1中,当地总计有375家企业,我们估计其中年产值低于4000万元的企业的概率,则有
其中“年产值<4000”表示“年产值小于4000万元”,以下表示与此类似。现在我们再来估计在年产值大于2000万元的条件下年产值小于4000万元的企业的概率。为此,我们简单地对表2.1中的数据以年产值大于2000万元为条件进行过滤,相应得到新的数据集,如表2.2所示。
表2.2 年产值大于2000万元的企业分布统计
在表2.2的新数据集中共有123家企业,相应地,我们可以估计得到在年产值大于2000万元的条件下年产值小于4000万元的企业的概率:
同时,从表2.1可以计算得到:
令P(A)=P(年产值<4000),P(B)=P(年产值>2000),P(A,B)=P(年产值<4000,年产值>2000),P(A|B)=P(年产值<4000|年产值>2000),有
显然有
式(2.2)即为概率的乘法公式的变形,后续将进行介绍。根据式(2.2),我们可以得到更一般的根据样本数据表计算条件概率(假设样本量足够大,频率等价于概率)的方法——过滤法。以例2.1中的数据为例,首先根据表2.1计算各个年产值段企业分布的概率,如表2.3所示。
表2.3 企业年产值分布概率
现在需要计算概率P(年产值<4000|年产值>2000),先将满足年产值大于2000万元条件的企业数据筛选出来,将其余不满足条件的数据删除,相应地得到概率子表,如表2.4所示。
表2.4 年产值大于2000万元的企业分布概率
然后在表2.4中将年产值小于4000万元的企业筛选出来,其概率P′(年产值<4000,年产值>2000)=15.2%+9.6%=24.8%。同时,考虑到表2.4中所有概率和应该为1,故应对P′(年产值<4000,年产值>2000)除以32.8%做归一化处理。所以,最终
一般地,通过过滤法计算条件概率P(A|B)的步骤是:
1)在总的样本数据集中计算各个样本类别的概率,得到总数据表;
2)根据条件概率式中的条件B,将总数据表中不符合条件B的数据样本类别删除,得到样本子表;
3)在样本子表中将符合条件A的样本类别筛选出来,将各个符合条件A的样本类别在样本子表中的概率加和,得到初步的条件概率P′(A|B);
4)样本子表中所有样本类别在总数据表中的概率的总和假设为θ,将初步的条件概率P′(A|B)除以θ,即为条件概率P(A|B)。
条件概率在因果推断分析中非常重要,根据样本数据集进行干预分析、反事实分析或因果关系概率的计算,都需要进行条件概率的计算,过滤法是上述计算工作的基础,在后续内容中我们将多次应用过滤法进行计算。