1.3.1 评价模型的量化指标_机器学习中的统计思维（Python实现）-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

1.3.1　评价模型的量化指标

在监督学习中，主要分为分类问题和回归问题。假如现在从假设空间中选取模型f作为目标，实例x的标签为y，通过模型f得到的预测结果为f（x）。损失函数就是比较输入变量取值为x时，f（x）与真实标注y之间的差异。记损失函数为L（y，f（x））。以下介绍不同问题中常见的损失函数。

1．回归问题中常见的损失函数

（1）绝对损失函数（Absolute Loss Function）

L(y,f(x))=|y−f(x)|

（2）平方损失函数（Quadratic Loss Function）

L(y,f(x))=(y−f(x))2

在线性回归模型中，最小二乘参数估计就是基于平方损失实现的。在套索回归中，为实现变量选择，采用绝对损失函数作为正则项。具体内容详见第2章。

2．分类问题中常见的损失函数

（1）0-1损失函数（0-1 Loss Function）

0-1损失函数常用于最近邻分类(1)、朴素贝叶斯分类(2)。

（2）指数损失函数（Exponential Loss Function）

L(y,f(x))=exp(−yf(x))

指数损失函数常用于自适应提升（Adaptive Boosting，AdaBoost）提升方法(3)。

（3）合页损失函数（Hinge Loss Function）

式中，f(x)=sign(w·x+b)，w表示分离超平面的权重向量，b表示分离超平面的偏置项。合页损失函数常用于支持向量机(4)。

除以上几种损失函数外，还有为感知机模型特别定制的感知机损失、由似然函数变化而得的似然损失等。可见，损失函数是以目的为导向，根据模型特点给出的。

对模型而言，一个样本点预测的好坏可以通过损失函数计算。一个或几个样本的损失，只是一个小局部的损失情况，如果想知道模型在全局上的损失，度量模型在数据总体（即包含所研究的全部个体的集合，是一个统计学中的基本概念）的损失，则可以从总体上的平均损失来看。因为样本不同取值下的概率可能不同，那么不同样本所带来的损失也可能不一样，风险函数就相当于样本空间中所有样本取值所带来的加权平均损失。在监督学习中，每个样本都具有输入和输出，记输入变量X和输出变量Y组成的所有可能取值的集合为样本空间，记输入变量和输出变量在样本空间上的联合分布为P(X,Y)。损失函数的期望称作风险损失（Risk Loss）或期望损失（Expected Loss）。关于期望的含义在小册子中给出解释。

表示理论上模型f在样本空间上的平均损失，或者说是总体的平均损失。一般以X为条件，对Y预测，所以式（1.3）可以写成

R_exp（f）=E_XE_Y|_X[L（Y，f（X））|X]

此时，通过逐点最小化R_exp(f)即可得到学习模型f∗，

另外，如果目标是选择中位数损失最小的模型，可以将期望损失改为中位数损失（Median Loss)，即

R_med(f)=Med[L(Y,f(X))]

其中，Med表示中位数函数。与期望相比，中位数不受异常值的影响，更加稳健（Robust）。但是在数学计算的便捷性上，中位数不如期望，致使其发展受阻。即使如此，在计算机技术的辅助下，相信在不久的将来这些难关都将被攻克。

但是，用以计算期望损失的概率分布很难获悉，这是因为人们不知道上帝创造这个世界到底用的是什么模型，从人类视角来看，可以借助统计思想：根据样本推断总体。如果已知的样本集为

T={（x₁，y₁），（x₂，y₂），···，（x_N，y_N）}

则模型f在已知数据集上的平均损失称为经验风险（Empirical Risk）或经验损失（Empirical Loss），记作R_emp(f)，

可以说，期望损失就相当于一个总体平均损失的理论值，经验风险就是样本平均损失，作为期望损失的经验值而出现的。

损失函数、期望损失和经验风险都是一般性的概念，并不是对应于某一特定模型的，因此可以用以制定学习方法的策略，进而在学习系统中训练模型和测试模型，其具体区别如图1.11所示。

图1.11　损失函数、期望损失、经验风险之间的区别

下面分别从拟合能力和泛化能力来解释例1.1中提到的训练误差、测试误差等，这些都是对应于训练出来的某一特定模型而言的。