深度学习:卷积神经网络从入门到精通
上QQ阅读APP看书,第一时间看更新

1.3 卷积神经网络的应用和影响

自从卷积神经网络在深度学习领域闪亮登场之后,很快取得了突飞猛进的进展,不仅显著提高了手写字符识别的准确率,而且屡屡在图像分类与识别、目标定位与检测等大规模数据评测竞赛中名列前茅、战绩辉煌。此外,卷积神经网络在人脸验证、交通标志识别、视频游戏、视频分类、语音识别、机器翻译、围棋程序等各个方面也获得广泛的成功应用。

在手写字符识别方面,LeCun等人早在1998年就采用卷积神经网络模型使MNIST数据集上的错误率达到了0.95%以下[19], Simard等人在2003年采用交叉熵训练卷积神经网络把MNIST数据集上的错误率进一步降到了0.4%, Ranzato等人在2006年采用大卷积神经网络和无监督预训练又把MNIST数据集上的错误率降到了0.39%, Ciresan等人在2012年采用卷积神经网络的委员会模型把MNIST数据集上的错误率降到了目前的最低水平0.23%。更详细的统计结果请访问网址http://yann.lecun.com/exdb/mnist/

在图像分类方面,由Krizhevsky、Sutshever和Hinton组织的超级视觉队(SuperVision)于2012年实现了一个深层卷积神经网络,参加大规模视觉识别挑战赛(ImageNet Large Scale Visual Recognition Challenge 2012, ILSVRC-2012)时获得了最好的前5测试错误率(16.4%),比第二名的成绩低10%左右[46]。这个卷积神经网络现在称为AlexNet,使用了“dropout”优化技术和“ReLU”激活函数,以及非常有效的GPU实现,显著加快了训练过程。2013~2017年的挑战赛中,成绩最好的图像分类系统分别是Claeifai[71]、GoogLeNet[56]、残差网络[68]、六模型集成(ensemble of 6 model)[72]、双通道网络(Dual Path Network, DPN)[73],它们都使用了卷积神经网络的模型结构。这些网络获得的前5测试错误率分别为11.7%、6.7%、3.57%、2.99%和3.41%。

在ILSVR 2012~2017年的单目标定位挑战赛上,获得最好错误率的系统都集成了卷积神经网络,分别是AlexNet[46]、Overfeat[74]、VGGNet[54]、ResNet[68]、集成模型3(ensemble 3)[72]和双通道网络[73],相应的最好错误率分别为34.2%、29.9%、25.3%、9.02%、7.71%和6.22%。在ILSVRC-2014的目标检测挑战赛上,Lin等人将R-CNN和NIN相结合,获得了37.2%的平均准确率[57], Szegedy等人使用GoogLeNet获得了43.9%的平均准确率[56]。在ILSVRC-2015的目标检测挑战赛上,He等人将Faster R-CNN和ResNet相结合,获得了62.1%的平均准确率,比第二名高出了8.5%[68]。在2016年的目标检测挑战赛上,Zeng等人采用门控双向卷积神经网络(gated bi-directional CNN)获得了66.28%的平均准确率[75]。在2017年的目标检测挑战赛上,Shuai等人将特征金字塔网络与门控双向卷积神经网络相结合,获得了73.14%的平均准确率。

在人脸验证方面,Fan等人于2014年建立了一个金字塔卷积神经网络(pyramid CNN),在LFW数据集上获得了97.3%的准确率,其中LFW是“Labeled Faces in the Wild”的缩写[76]。2015年,Ding等人利用精心设计的卷积神经网络和三层堆叠的自编码器建立了一个复杂的混合模型,在LFW数据集上获得了高于99.0%的准确率[77]。Sun等人提出了一个由卷积层和摄入层(inception layer)堆叠而成的DeepID3模型,在LFW数据集上获得了99.53%的准确率[78]。此外,Schroff等人实现了“FaceNet”系统,在LFW和YouTube人脸数据集上分别获得了99.63%和95.12%的准确率[79]

在交通标志识别方面,Ciresan等人于2011年实现了一个由卷积神经网络和多层感知器构成的委员会机器,在德国交通标志识别标准数据集(German Traff ic Sign Recognition Benchmark, GTSRB)上获得了99.15%的准确率[80]。2012年,Ciresan等人提出了一个多列卷积神经网络,在GTSRB上获得了99.46%的准确率,超过了人类的识别结果[81]

在视频游戏方面,Mnih等人于2015年通过结合卷积神经网络和强化学习,开发了一个深度Q-网络智能体的机器玩家[37],只需输入场景像素和游戏得分进行训练,就能够让很多经典的Atari 2600视频游戏成功学会有效的操作策略,达到与人类专业玩家相当的水平。这种深度Q-网络智能体在高维感知输入和行为操纵之间的鸿沟上架起了一座桥梁,能够出色地处理各种具有挑战性的任务。

在视频分类方面,使用独立子空间分析(Independent Subspace Analysis, ISA)方法,Le等人于2011年提出了堆叠卷积ISA网络,能够从无标签视频数据中学习不变的时空特征。该网络在Hollyword 2和YouTube数据集上分别获得了53.3%和75.8%的准确率[82]。2014年,Karpathy等人对卷积神经网络在大规模视频分类上的效果进行了广泛的经验评估,在Sports-1M测试集的200000个视频上获得了63.9%的Hit@1值(即前1准确率)[83]。2015年,Ng等人采用卷积神经网络和长短期记忆循环神经网络的混合模型,在Sports-1M测试集上获得了73.1%的Hit@1值[84]

在语音识别方面,Abdel-Hamid等人于2012年第一次证实,使用卷积神经网络能够在频率坐标轴上有效归一化说话人的差异,并在TIMIT音素识别任务上将音素错误率从20.7%降到20.0%[85]。这些结果在2013年被微软研究院的Abdel-Hamid等人和Deng等人以及IBM研究院的Sainath等人使用改进的卷积神经网络结构、预训练和池化技术拓展到大词汇语音识别上[86-87]。进一步的研究表明,卷积神经网络对训练集或者数据差异较小的任务帮助最大[88-90]。此外,通过结合卷积神经网络、深度神经网络和基于i-vector的自适应技术,IBM的研究人员在2014年说明他们能够将Switchboard Hub5′00评估集的词错误率降至10.4%。

在机器翻译方面,Gehring等人使用一种全新的卷积神经网络模型进行从序列到序列的学习[91],能够在非常大的标准数据集上超越循环神经网络的性能,不仅可以大幅提高翻译速度,同时也提高了翻译质量。比如,这种全新的模型在WMT'16英语到罗马尼亚语的翻译任务上可比以前最好的系统提高1.8的BLEU分数,在WMT'14英语到法语的翻译任务上可比Wu等人的长短期记忆神经翻译模型提高1.5的BLEU分数[92],在WMT'14英语到德语的翻译任务上可超过当前最高水平0.5的BLEU分数。

在围棋程序方面,DeepMind开发的AlphaGo利用深层网络和蒙特卡罗树搜索(Monte Carlo tree search),2015年10月首次在完整的围棋比赛中没有任何让子以5比0战胜了人类的专业选手、欧洲冠军、职业围棋二段选手樊麾[93],这也是计算机围棋程序首次击败围棋职业棋手。2016年3月,AlphaGo又以4比1战胜了人类的顶尖高手、世界冠军、职业围棋九段选手李世石。2016年末2017年初,AlphaGo在中国棋类网站上以Master为注册账号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩。2017年5月,在中国乌镇围棋峰会上,AlphaGo以3比0战胜排名世界第一的围棋冠军柯洁。