深度学习与MindSpore实践
上QQ阅读APP看书,第一时间看更新

4.1 深度学习系统面临的主要挑战

下面从大数据集需求、硬件需求、过拟合、超参数优化、不透明性、缺少灵活性这六个方面来简要说明深度学习系统所面临的挑战。

4.1.1 大数据集需求

在深度学习系统中,人们往往需要大型的数据集去训练一个有效的深度学习模型。一般来说,越多的数据就越有可能使深度学习模型变得更强大。例如,在语音识别领域中,为了学习一种语言,模型往往需要大量各种口音、各种时长的语音数据。这需要研究人员拥有非常强的数据处理能力,并耗费大量时间去处理这些数据。在某种程度上,深度学习系统的效果经常局限于数据集的大小。

4.1.2 硬件需求

当有了深度学习模型所要求的大量数据,研究人员往往面临另一个难题:如何高速地处理完这些数据?为了确保更高的效率和更少的处理时间,往往还需要为深度学习系统的机器配备足够的计算能力。数据科学家现在倾向于使用多核高性能的图形处理器,这些处理器不仅价格昂贵,还往往在运算中消耗大量的电力。

不同应用场景对硬件的要求也不一样。工业级深度学习系统需要大型的数据处理中心,而移动智能设备,例如无人机、机器人往往需要小型但高效的计算设备。因此,将深度学习系统部署到现实世界中,是一件既昂贵又复杂的事情。

4.1.3 过拟合

在深度学习系统中,模型往往根据已采集的数据去判断,而训练数据集和未知的数据集存在明显的差异。通常,研究人员以最大化模型在训练数据集上的性能为目标来训练模型。在实际应用中,模型的能力应当是通过那些未知的、看不见的数据来判断,而不是通过提供给它的训练数据来判断。模型只记住了训练数据集上的样例,但并没有学会推广到新的情况和样例,这就是深度学习系统的过拟合现象。

4.1.4 超参数优化

不同于模型训练中的参数,超参数是在模型学习开始前定义的参数。实际运用中,超参数的设置极大地影响了模型的性能表现。对模型中超参数的微小调整,可能会导致模型性能发生较大变化。如果不优化超参数,而是简单依赖某些模型中对超参数的默认设置,可能并不能使模型达到预期的性能。

不幸的是,超参数的设置或者调节往往都是依靠研究人员的经验或根据模型最终的训练结果。不难想象,一个在相关领域没有经验积累的人员想要得到一组好的超参数,可能只能依靠不断地训练那些费时费力的模型。

4.1.5 不透明性

将已知数据提供给深度学习模型进行训练,从数百万计的数据点中,深度学习算法查找并筛选一些不容易被人类注意到的模式和相关性,从而提供给使用者解决方案。然而,人类通常并不理解这些模型是如何推断出结论的。

如图4.1所示,深度学习模型在本质上是黑箱算法,给定输入后,往往只能观测其输出。也就是说,它们的内部学习和操作在很大程度上对我们是不可见的。这使得我们在抽象层次上对深度学习的高级认知变得十分困难。当深度学习系统被用于执行一项微不足道的任务时,这没问题。因为高性能的它们很少做出错误的决定,带来的损害也微不足道。但它们并不适用于那些着重于验证过程的领域。例如,深度学习系统被用来决定被告在法庭上的命运或者对病人的治疗时,错误的决定可能导致非常严重的后果。

图4.1 深度学习的黑箱问题

4.1.6 缺少灵活性

如前所述,一个训练好的深度学习模型,可以为特定的问题提供极其高效和准确的解决方案。然而,深度学习系统当前的问题也出在这里。目前大多数的深度学习系统都是专门为某个特定的主题设计的,也只能用于原本的主题。不管它们多善于解决原问题,它们通常都不能直接应用于解决新问题,即使新问题和原问题非常类似。当前的研究人员也致力于开发无须重新训练和评估就可以进行多任务处理的深度学习模型。