3.2 间隔与支持向量
给定训练样本集,分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,划分超平面是指将训练集分隔开来的直线,它将不同类别的样本分开,但能将训练样本分开的划分超平面可能有很多,如图3-1所示。
图3-1 存在多个划分超平面将两类训练样本分开
从图3-1可以看出,位于两类训练样本“正中间”的划分超平面(图3-1中黑色加粗的直线)就是我们要找的划分超平面,因为该划分超平面对训练样本局部扰动的“容忍”性最好。例如,由于训练集的局限性或噪声因素,训练集外的样本可能比图3-1中的训练样本更接近两个类的分隔界,这将使许多划分超平面出现错误,而黑色加粗的超平面受影响最小。换言之,这个划分超平面所产生的分类结果的鲁棒性最好,对未见示例的泛化能力也最强。
对于一个数据点,离超平面越远,其最后的预测结果越可信,因此需要寻找到一些离超平面最近的点,确保它们离超平面的距离尽可能远,这些点到划分超平面的距离称为间隔。离划分超平面最近的那些点称为支持向量,因此寻找划分超平面的问题便转化为寻找最大间隔的问题。
在样本空间中,划分超平面可通过式(3-1)的线性方程来描述,即
(3-1)
其中,为法向量,决定了超平面的方向;b为位移项,决定了超平面与原点之间的距离。若将超平面记为,那么样本空间中任意点x到超平面的距离可写为
(3-2)
假设超平面能将训练样本正确分类,那么对于,若,则有;若,则有。
(3-3)
如图3-2所示,每个样本点对应一个特征向量,距离超平面最近的这几个训练样本点(支持向量)使式(3-3)的等号成立,两个异类支持向量到超平面的距离之和为
(3-4)
它被称为“间隔”(margin)。
图3-2 支持向量与间隔
寻找具有“最大间隔”(maximum margin)的划分超平面,就是要找到能满足式(3-3)中约束的参数和,使得式(3-4)所示的最大。
(3-5)
显然,为了最大化间隔,仅需最大化,这等价于最小化。于是,式(3-5)可以重写为式(3-6),即
(3-6)
这就是支持向量机的基本型。