第2章 模型评估与选择
式(2.20)
解析
在解释式之前,需要先弄清楚曲线的具体绘制过程.下面我们就举个例子,按照“西瓜书”图2.4下方给出的绘制方法来讲解一下曲线的具体绘制过程.
假设我们已经训练得到一个学习器,现在用该学习器来对8个测试样本(4个正例,4个反例,即)进行预测,预测结果为:
此处用表示样本, 以和坐标作出区分
其中,和分别表示样本为正例和为反例,数字表示学习器预测该样本为正例的概率,例如对于反例来说, 当前学习器预测它是正例的概率为.
上面给出的预测结果已经按照预测值从大到小排序
根据“西瓜书”上给出的绘制方法,首先需要对所有测试样本按照学习器给出的预测结果进行排序,接着将分类阈值设为一个不可能取到的最大值.显然,此时所有样本预测为正例的概率都一定小于分类阈值,那么预测为正例的样本个数为0,相应的真正例率和假正例率也都为0,所以我们可以在坐标处标记一个点. 接下来需要把分类阈值从大到小依次设为每个样本的预测值,也就是依次设为0.77, 0.62, 0.58, 0.47, 0.33, 0.23,0.15,然后分别计算真正例率和假正例率,再在相应的坐标上标记点,最后再将各个点用直线连接, 即可得到曲线.需要注意的是,在统计预测结果时,预测值等于分类阈值的样本也被算作预测为正例. 例如,当分类阈值为时,测试样本 被预测为正例,由于它的真实标记也是正例,所以此时是一个真正例.为了便于绘图,我们将轴(假正例率轴)的“步长”定为,轴(真正例率轴)的“步长”定为.根据真正例率和假正例率的定义可知,每次变动分类阈值时,若新增个假正例,那么相应的轴坐标也就增加;若新增个真正例,那么相应的轴坐标也就增加.按照以上讲述的绘制流程,最终我们可以绘制出如图2-1所示的曲线.
图2-1 ROC曲线示意
注: 表示红色线段; 表示蓝色线段;表示绿色线段
在这里,为了能在解析式(2.21)时复用此图,我们没有写上具体的数值,转而用其数学符号代替.其中绿色线段表示在分类阈值变动的过程中只新增了真正例,红色线段表示只新增了假正例,蓝色线段表示既新增了真正例也新增了假正例.根据值的定义可知,此时的值其实就是所有红色线段和蓝色线段与轴围成的面积之和.观察图2-1可知,红色线段与轴围成的图形恒为矩形,蓝色线段与轴围成的图形恒为梯形.由于梯形面积式既能算梯形面积,也能算矩形面积,所以无论是红色线段还是蓝色线段,其与轴围成的面积都能用梯形公式来计算:
其中,为“高”,为“上底”,为“下底”.那么对所有红色线段和蓝色线段与轴围成的面积进行求和,则有
此即.
式(2.21)
解析
按照我们上述对式(2.20)的解析思路,可以看作是所有绿色线段和蓝色线段与轴围成的面积之和,但从式(2.21)中很难一眼看出其面积的具体计算方式,因此我们进行恒等变形如下:
在变动分类阈值的过程当中,如果有新增真正例,那么图2-1就会相应地增加一条绿色线段或蓝色线段,所以上式中的可以看作是在累加所有绿色和蓝色线段,相应地,后面的内容便是在求绿色线段或者蓝色线段与轴围成的面积,即:
与式(2.20)中的求解思路相同,不论是绿色线段还是蓝色线段,其与轴围成的图形面积都可以用梯形公式来进行计算,所以上式表示的依旧是一个梯形的面积公式.其中即梯形的“高”,中括号内便是“上底+下底”,下面我们来分别推导一下“上底”(较短的底)和“下底”(较长的底).
由于在绘制曲线的过程中,每新增一个假正例时坐标也就新增一个步长,所以对于“上底”,也就是绿色或者蓝色线段的下端点到轴的距离,长度就等于乘以预测值大于的假正例的个数,即
而对于“下底”,长度就等于乘以预测值大于等于的假正例的个数,即
式(2.27)
解析
截至2018年12月“西瓜书”第1版第30次印刷,式(2.27)应当勘误为
具体推导过程如下:由“西瓜书”中的上下文可知,对进行假设检验,等价于本章附注中所述的对进行假设检验,所以在“西瓜书”中求解最大错误率等价于在附注中求解事件最大发生频率. 由附注可知
所以
将上式中的等价替换为可得
式(2.41)
①
②
③
④
⑤
⑥
⑦
①②:减一个再加一个,属于简单的恒等变形
④⑤:同①②一样,减一个再加一个,属于简单的恒等变形
⑤⑥:同②③一样, 将最后一项利用期望的运算性质进行展开
解析
②③:首先将中括号内的式子展开,有
然后根据期望的运算性质可将上式化为
③④:再次利用期望的运算性质将第3步得到的式子的最后一项展开,有
首先计算展开后得到的第1项,有
由于是常量,所以由期望的运算性质:(其中均为常量)可得
由式(2.37)可知,所以
接着计算展开后得到的第二项
由于噪声和无关,所以和是两个相互独立的随机变量. 根据期望的运算性质(其中和为相互独立的随机变量)可得
所以
⑥⑦:因为和均为常量,根据期望的运算性质,有⑥中的第2项
同理有⑥中的最后一项
由于此时假定噪声的期望为零,即,所以