1.3.1 评价模型的量化指标
在监督学习中,主要分为分类问题和回归问题。假如现在从假设空间中选取模型f作为目标,实例x的标签为y,通过模型f得到的预测结果为f(x)。损失函数就是比较输入变量取值为x时,f(x)与真实标注y之间的差异。记损失函数为L(y,f(x))。以下介绍不同问题中常见的损失函数。
1.回归问题中常见的损失函数
(1)绝对损失函数(Absolute Loss Function)
L(y,f(x))=|y−f(x)|
(2)平方损失函数(Quadratic Loss Function)
L(y,f(x))=(y−f(x))2
在线性回归模型中,最小二乘参数估计就是基于平方损失实现的。在套索回归中,为实现变量选择,采用绝对损失函数作为正则项。具体内容详见第2章。
2.分类问题中常见的损失函数
(1)0-1损失函数(0-1 Loss Function)
0-1损失函数常用于最近邻分类(1)、朴素贝叶斯分类(2)。
(2)指数损失函数(Exponential Loss Function)
L(y,f(x))=exp(−yf(x))
指数损失函数常用于自适应提升(Adaptive Boosting,AdaBoost)提升方法(3)。
(3)合页损失函数(Hinge Loss Function)
式中,f(x)=sign(w·x+b),w表示分离超平面的权重向量,b表示分离超平面的偏置项。合页损失函数常用于支持向量机(4)。
除以上几种损失函数外,还有为感知机模型特别定制的感知机损失、由似然函数变化而得的似然损失等。可见,损失函数是以目的为导向,根据模型特点给出的。
对模型而言,一个样本点预测的好坏可以通过损失函数计算。一个或几个样本的损失,只是一个小局部的损失情况,如果想知道模型在全局上的损失,度量模型在数据总体(即包含所研究的全部个体的集合,是一个统计学中的基本概念)的损失,则可以从总体上的平均损失来看。因为样本不同取值下的概率可能不同,那么不同样本所带来的损失也可能不一样,风险函数就相当于样本空间中所有样本取值所带来的加权平均损失。在监督学习中,每个样本都具有输入和输出,记输入变量X和输出变量Y组成的所有可能取值的集合为样本空间,记输入变量和输出变量在样本空间上的联合分布为P(X,Y)。损失函数的期望称作风险损失(Risk Loss)或期望损失(Expected Loss)。关于期望的含义在小册子中给出解释。
表示理论上模型f在样本空间上的平均损失,或者说是总体的平均损失。一般以X为条件,对Y预测,所以式(1.3)可以写成
Rexp(f)=EXEY|X[L(Y,f(X))|X]
此时,通过逐点最小化Rexp(f)即可得到学习模型f∗,
另外,如果目标是选择中位数损失最小的模型,可以将期望损失改为中位数损失(Median Loss),即
Rmed(f)=Med[L(Y,f(X))]
其中,Med表示中位数函数。与期望相比,中位数不受异常值的影响,更加稳健(Robust)。但是在数学计算的便捷性上,中位数不如期望,致使其发展受阻。即使如此,在计算机技术的辅助下,相信在不久的将来这些难关都将被攻克。
但是,用以计算期望损失的概率分布很难获悉,这是因为人们不知道上帝创造这个世界到底用的是什么模型,从人类视角来看,可以借助统计思想:根据样本推断总体。如果已知的样本集为
T={(x1,y1),(x2,y2),···,(xN,yN)}
则模型f在已知数据集上的平均损失称为经验风险(Empirical Risk)或经验损失(Empirical Loss),记作Remp(f),
可以说,期望损失就相当于一个总体平均损失的理论值,经验风险就是样本平均损失,作为期望损失的经验值而出现的。
损失函数、期望损失和经验风险都是一般性的概念,并不是对应于某一特定模型的,因此可以用以制定学习方法的策略,进而在学习系统中训练模型和测试模型,其具体区别如图1.11所示。
图1.11 损失函数、期望损失、经验风险之间的区别
下面分别从拟合能力和泛化能力来解释例1.1中提到的训练误差、测试误差等,这些都是对应于训练出来的某一特定模型而言的。