2.2.1 概率与条件概率_因果推断：基于图模型分析-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.2 概率及其计算

2.2.1 概率与条件概率

概率的定义如下：对于一个随机试验，全体基本事件有n个，若事件A包含m个基本事件，则事件A的概率为

在调查学生身高与体重关系的试验中，可以将学生的身高视为一个变量，我们用X表示，X=175cm的概率可以表示为P(X=175cm)，表示在所有学生中随机选出一个学生，其身高等于175cm的概率。更一般的情况是，变量X=x的概率表示为P(X=x)，为简化书写，根据上下文，这个表达式通常可以缩写为P(x)。我们也可以描述多个变量同时取值的概率，比如，X=x同时Y=y的概率可以表达为P(X=x,Y=y)或者缩写为P(x,y)。

事件B已经发生的情况下事件A发生的概率，称为给定B条件下A的条件概率。给定Y=y条件下X=x的条件概率，表示为P(X=x|Y=y)。和无条件概率类似，这个表达式也可以缩写为P(x|y)。通常，X=x在给定Y=y条件下的条件概率，与无条件的X=x的概率相比有较大的变化。一个直观的例子是，一般人患糖尿病的概率比较低，但是，在直系亲属患糖尿病的条件下，则患糖尿病的概率将大大增加。

在给定数据集中根据频率估算条件概率时，可以将条件视为一个或多个变量的取值，再根据一个或多个变量的取值情况对数据集进行过滤、计算。我们以某地企业年产值的统计为例，来具体说明如何在数据集的基础上通过过滤实现条件概率的计算。

例2.1 我们统计某地工业企业的年产值分布情况，得到如表2.1所示的数据集。

表2.1 企业年产值分布统计

在表2.1中，当地总计有375家企业，我们估计其中年产值低于4000万元的企业的概率，则有

其中“年产值<4000”表示“年产值小于4000万元”，以下表示与此类似。现在我们再来估计在年产值大于2000万元的条件下年产值小于4000万元的企业的概率。为此，我们简单地对表2.1中的数据以年产值大于2000万元为条件进行过滤，相应得到新的数据集，如表2.2所示。

表2.2 年产值大于2000万元的企业分布统计

在表2.2的新数据集中共有123家企业，相应地，我们可以估计得到在年产值大于2000万元的条件下年产值小于4000万元的企业的概率：

同时，从表2.1可以计算得到：

令P(A)=P（年产值<4000），P(B)=P（年产值>2000），P(A,B)=P（年产值<4000，年产值>2000），P(A|B)=P（年产值<4000|年产值>2000），有

显然有

式（2.2）即为概率的乘法公式的变形，后续将进行介绍。根据式（2.2），我们可以得到更一般的根据样本数据表计算条件概率（假设样本量足够大，频率等价于概率）的方法——过滤法。以例2.1中的数据为例，首先根据表2.1计算各个年产值段企业分布的概率，如表2.3所示。

表2.3 企业年产值分布概率

现在需要计算概率P（年产值<4000|年产值>2000），先将满足年产值大于2000万元条件的企业数据筛选出来，将其余不满足条件的数据删除，相应地得到概率子表，如表2.4所示。

表2.4 年产值大于2000万元的企业分布概率

然后在表2.4中将年产值小于4000万元的企业筛选出来，其概率P′（年产值<4000，年产值>2000）=15.2%+9.6%=24.8%。同时，考虑到表2.4中所有概率和应该为1，故应对P′（年产值<4000，年产值>2000）除以32.8%做归一化处理。所以，最终

一般地，通过过滤法计算条件概率P(A|B)的步骤是：

1）在总的样本数据集中计算各个样本类别的概率，得到总数据表；

2）根据条件概率式中的条件B，将总数据表中不符合条件B的数据样本类别删除，得到样本子表；

3）在样本子表中将符合条件A的样本类别筛选出来，将各个符合条件A的样本类别在样本子表中的概率加和，得到初步的条件概率P′(A|B)；

4）样本子表中所有样本类别在总数据表中的概率的总和假设为θ，将初步的条件概率P′(A|B)除以θ，即为条件概率P(A|B)。

条件概率在因果推断分析中非常重要，根据样本数据集进行干预分析、反事实分析或因果关系概率的计算，都需要进行条件概率的计算，过滤法是上述计算工作的基础，在后续内容中我们将多次应用过滤法进行计算。