4.1 概率的用途
概率分布是概率论的基本概念之一,主要用来表述随机变量取值的概率规律。为了方便使用,根据随机变量所属类型的不同,概率分布取不同的表现形式。事件的概率可以表示一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布。
一般情况下,计算机科学所处理的问题大部分是完全确定事件,这让计算机在绝大多数情况下可以完美地执行程序员设定的每个程序指令。虽然,有时可能会因硬件故障而引发错误,但这类故障属于是小概率事件,大部分软件程序在实际设计中并不会将这些小概率因素纳入考虑范围。
在机器学习领域需要面对大量的不确定事件,经常会用到概率论的知识。在数学领域,除了被定义为真理的数学概念外,大部分命题很难有百分之百的把握被认定为真或假。不确定性和随机性可能来自多个方面,以下将列出3种可能的不确定性的来源:
· 被建模系统的内部具有随机性。例如,在量子力学中亚原子(subatomic)粒子的动力学被描述为概率性的。假设存在一个装有带序号小球的纸箱,堆放在纸箱中的小球被充分打乱成随机顺序。
· 不完全观测导致的随机性。即使是确定的系统,当无法观测到驱动系统行为的全部变量时,该系统也会呈现出随机性。例如,一个千锋课余趣味竞赛中的参赛者被要求在3个被遮挡的纸箱之间进行选择,其中两个纸箱的奖励为空,另一个纸箱中的奖励为一份奖学金。选手最终选择的结果是确定的;但是站在选手的角度,所做的选择是不确定的,因为选手在做出选择时不知道3个纸箱中的具体情况。
· 不完全建模导致的随机性。在使用一些必须舍弃某些观测信息的模型时,舍弃的信息会导致模型的预测出现不确定性。例如,假设存在一个监视器可以准确地观察和预测周围每一个行人的位置。本来可以根据行人的行动轨迹和走路速度较为准确地预测出行人下一秒可能出现的位置,但是如果预测这些行人下一秒所处位置时采用的是离散化的空间,那么离散化的空间使得监视器无法确定对象的精确位置:每个行人都可能在下一秒出现在该离散空间的任意位置上。
在多数情况下,使用一些简单而不确定的规则要比复杂而确定的规则更为实用,即使已经存在确立的规则,并且模型系统对适应复杂规则具有很好的逼真度(Fidelity)。以一个简单的规则为例:“大部分千锋程序员毕业后收入很高”,这个评价规则虽然简单并且定义十分模糊,却因为简洁而有着很好的易用性和泛用性。而接下来给出的这个评价规则虽然详细实际,但由于条件过多可能会影响实际应用的效率:“只有努力学习,认真磨炼编程水平的千锋程序员才能在毕业后拥有很高的收入。”这条规则涉及了“努力程度”“认真程度”等多个指标,这无疑增添了规则的复杂程度,降低了该规则的实用性。