因果推断:基于图模型分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 随机变量和随机事件

2.1.1 随机变量

我们将对社会现象和自然现象进行的测量以及各种科学试验统称为试验。其中,具有以下特征的试验称为随机试验:

● 可在相同条件下重复进行;

● 试验的全部可能结果在试验前就已明确;

● 在一次试验结束之前,不能确定性地预测会出现哪一个结果。

比如,抛硬币观察哪一面朝上就是一个随机试验,它满足随机试验的三个条件:抛硬币观察哪一面朝上可以在相同条件下重复地进行;在试验前我们就知道可能的结果只有两个,即正面朝上或反面朝上;在抛硬币结束之前,我们无法确定这次抛硬币的结果中到底是哪一面朝上。

在随机试验中,具有多个不确定取值的属性或者对不确定问题结果的描述,称为随机变量(后续一般简称为变量)。比如,在抛硬币观察哪一面朝上这个随机试验中,我们可以将哪一面朝上这个结果视为一个随机变量,其有两个取值:正面朝上或反面朝上。在统计学校里学生身高与体重关系的调查中,学生的身高这个属性是一个随机变量,我们表示为X,学生的体重也是一个随机变量,我们表示为Y。一个学生的身高是175cm,也就是身高这个随机变量的取值是175cm,即X=175cm。同样,一个学生的体重是60kg,也就是体重这个随机变量的取值是60kg,即Y=60kg。

根据取值情况,随机变量又分为离散变量和连续变量两种类型。若随机变量的取值为有限多个值或者无限多个可列值,则称该随机变量为离散变量。比如,描述灯开关状态的随机变量是离散变量,因为这个变量的取值只有两个,即“开”和“关”;描述患者用药后治愈分类情况的随机变量也是离散变量,因为这个变量的取值只有三个,即“状况变好”“状况变差”和“状况不变”。若随机变量可以在一个有限或无限的连续区间上取无穷多个值,则称该随机变量为连续变量。连续区间就是对于区间中的任意两个数值,都存在第三个数值落于这两个数值之间。比如,在统计学生的身高与体重的关系时,学生的体重就是连续变量,因为体重的取值是连续区间上的一个正实数,且可以取无穷多个值。同样,学生的身高也是连续变量。需要注意的是,一个变量是连续变量还是离散变量,是针对具体的随机试验而言的。一个变量可能在一个随机试验中是连续变量,而在另一个随机试验中是离散变量。比如测量小孩身高这个随机试验,小孩的身高是一个变量。假如我们这个随机试验是统计小孩的身高情况,那么小孩身高这个变量的取值就是大于0的正实数,是连续变量;如果我们这个随机试验是查看小孩的身高,用于判断小孩乘车是该购买半票还是全票,那么小孩身高这个随机变量就只有大于等于1.2米和不到1.2米两个取值,是一个离散变量。