2.1 贝叶斯决策简介
2.1.1 贝叶斯决策所讨论的问题
当分类器的设计完成后,对待测样品进行分类,一定能正确分类吗?如果有错分类的情况发生,那么是在哪种情况下出现的?错分类的可能性有多大?这些问题是模式识别所涉及的重要问题,本节用概率论的方法分析造成错分类的原因,并说明其与哪些因素有关。
这里以某制药厂生产的药品检验识别为例,以此说明贝叶斯决策所要解决的问题。如图2-1 所示的线性可分示意图,正常药品用“+”表示,异常药品用“-”表示。识别的目的是要依据X向量将药品划分为两类。对于图2-1来说,可以用一条直线作为分界线,这条直线是关于X的线性方程,称为线性分类器。如果X向量被划分到直线右侧,则其为正常药品,若被划分到直线左侧,则其为异常药品,可见做出决策是很容易的,也不会出现什么差错。
问题在于可能会出现模棱两可的情况,线性不可分示意图如图2-2所示。此时,任何决策都存在判错的可能性。由图2-2可见,在直线A、B之间,不同类的样品在特征空间中相互穿插,很难用简单的分界线将它们完全分开,即所观察到的某一样品的特征向量为X,在M类中又有不止一类可能呈现这一特征值X,无论直线参数如何设计,总会有错分类的情况发生。如果以错分类最小为原则分类,则图中A直线可能是最佳的分界线,它使错分类的样品数量最少。但是将一个“-”样品错分成“+”类所造成的损失要比将“+”分成“-”类严重,这是由于将异常药品误判为正常药品会使患者失去较早治疗的机会而遭受极大的损失;如果把正常药品误判为异常药品,虽然会给企业带来一点损失,但可以使总的损失为最小,那么B直线就可能比A直线更适合作为分界线。可见,分类器参数的选择或者学习过程得到的结果取决于设计者选择什么样的准则函数。不同准则函数的最优解对应不同的学习结果,得到性能不同的分类器。
图2-1 线性可分示意图
图2-2 线性不可分示意图
错分类往往难以避免,这种可能性可用P(ωi|X)表示。如何得出合理的判决就是贝叶斯决策所要讨论的问题。其中最具有代表性的是最小错误率贝叶斯决策和最小风险贝叶斯决策。
(1)最小错误率贝叶斯决策:包括指出机器自动识别出现错分类的条件,错分类的可能性如何计算,以及如何实现使错分类出现的可能性最小。
(2)最小风险贝叶斯决策:错分类有不同情况,从图2-2中可见,两种错误造成的损失不一样,不同的错误分类方式造成的损失会不相同,后一种错误更可怕,因此就要考虑减少错分类造成的危害损失。为此,引入一种“风险”与“损失”的概念,希望做到使风险最小,减少危害大的错分类情况的发生。
2.1.2 贝叶斯公式
若已知总共有M类物体,以及各类物体在n维特征空间的统计分布情况,具体来说就是已知各类别ωi(i=1,2,…,M)的先验概率P(ωi)及类条件概率密度函数P(X|ωi)。对于待测样品,贝叶斯公式可以计算出该样品分属各类别的概率(称之为后验概率);看X属于哪个类的可能性最大,就把X归于可能性最大的那个类,后验概率作为识别对象归属的依据。贝叶斯公式为
(2-1)
类别的状态是一个随机变量,而某种状态出现的概率是可以估计的。贝叶斯公式体现了先验概率、类条件概率密度函数、后验概率三者之间的关系。
1.先验概率P(ωi)
先验概率P(ωi)针对M个事件出现的可能性,不考虑其他任何条件。例如,有统计资料表明总药品数为N,其中,正常药品数为N1,异常药品数为N2,则
(2-2)
(2-3)
我们称P(ω1)及P(ω2)为先验概率。显然在一般情况下正常药品所占比例大,即P(ω1)>P(ω2)。仅按先验概率来决策,就会把所有药品都划归为正常药品,并没有达到将正常药品与异常药品区分开的目的。这表明先验概率所提供的信息太少。
2.类条件概率密度函数P(X|ωi)
类条件概率密度函数P(X|ωi)是指在已知某种类别的特征空间中,出现特征值X的概率密度,指第ωi类样品的属性X的分布情况。假定只用其中一个特征进行分类,即n=1,并已知这两类的类条件概率密度函数分布,如图2-3 所示,概率密度函数P(X|ω1)是正常药品的属性分布,概率密度函数P(X|ω2)是异常药品的属性分布。
图2-3 类条件概率密度函数分布
例如,全世界华人约占地球人口总数的 20%,但各个国家华人所占当地人口比例是不同的,类条件概率密度函数P(X|ωi)是指ωi条件下出现X的概率密度,即第ωi类样品属性X是如何分布的。
在工程上的许多问题中,统计数据往往满足正态分布规律。正态分布规律简单、分析方便、参量少,是一种适宜的数学模型。如果采用正态概率密度函数作为类条件概率密度的函数形式,则函数内的参数,如期望和方差是未知的。这时问题就变成了如何利用大量样品对这些参数进行估计,只要估计出这些参数,类条件概率密度函数P(X|ωi)也就确定了。
单变量正态密度函数为
(2-4)
式中,μ为数学期望(均值);σ2为方差。
μ=E(x)=xP(x)dx
(2-5)
σ2=E[(x-μ)2]=(x-μ)2P(x)dx
(2-6)
多维正态密度函数为
(2-7)
式中,X=(x1,x2,…,xn)为n维特征向量;为n维均值向量;S为n维协方差矩阵,是S的逆矩阵;|S|是S的行列式。
在大多数情况下,类条件概率密度可以采用多维变量的正态密度函数来模拟。
(2-8)
式中,为ωi类的均值向量。
3.后验概率
后验概率是指呈现状态X时,该样品分属各类别的概率,这个概率值可以作为识别对象归属的依据。由于属于不同类的待识别对象存在着呈现相同观测值的可能,即所观测到的某一样品的特征向量为X,而在类中又有不止一类可能呈现这一X值,它属于各类的概率又是多少呢?这种可能性可用P(ωi|X)表示。可以利用贝叶斯公式来计算这种条件概率,称为状态的后验概率P(ωi|X)。
(2-9)
P(ωi|X)表示在X出现的条件下,样品为ωi类的概率。在这里要弄清楚条件概率这个概念。P(A|B)是条件概率的通用符号,在“|”后边出现的B的为条件,之前的A为某个事件,即在某条件B下出现某个事件A的概率。
4.P(ω1|X)和P(ω2|X)与P(X|ω1)和P(X|ω2)的区别
① P(ω1|X)和P(ω2|X)是在同一条件X下,比较ω1与ω2出现的概率,若P(ω1|X)>P(ω2|X),则可以下结论:在X条件下,事件ω1出现的可能性大,有P(ω1|X)+P(ω2|X)=1。
② P(X|ω1)与P(X|ω2)都是指各自条件下出现X的可能性,两者之间没有联系,比较两者没有意义。P(X|ω1)和P(X|ω2)是在不同条件下讨论的问题,即使只有ω1与ω2两类,P(X|ω1)+P(X|ω2)≠1。不能仅因为P(X|ω1)>P(X|ω2),就认为A是第一类事物的可能性较大。只有考虑先验概率这一因素,才能确定在X条件下,判为ω1类或ω2类哪类的可能性比较大。