深度学习与MindSpore实践
上QQ阅读APP看书,第一时间看更新

3.3 泛化能力

在过拟合与欠拟合部分,介绍了泛化能力的概念,即机器学习算法对新样本的适应能力。神经网络具有大量的参数和很强的非线性变换能力,因而也很容易导致在训练集上过拟合。训练集上准确率很高,损失很低,但在测试数据上效果很差,也就是缺乏泛化能力,不能适应新样本。从另一个角度来讲,模型在训练集上的准确度高,可能仅仅是记住了一些样本的实际标签,而没有学习到数据本身的特性,这种记忆学习在未见过的测试样本上是行不通的。

泛化能力不足的原因通常有以下几点:数据集有噪声、训练数据不足或训练模型过度导致模型非常复杂。为了提高模型的泛化能力,提出了很多解决方法,例如通过降低模型深度、宽度来减小模型复杂度;对数据集进行增强(Data Augmentation),如将图像旋转、平移、缩放等;添加有规则的噪音,例如高斯噪声;加入正则化项(Regularizer)控制参数复杂度;训练过程中使用早停法(Early Stopping)等。

3.4节将介绍提高深度神经网络泛化能力的具体训练方法。