1.3 深度学习的研究现状
深度学习极大地促进了机器学习的发展,受到了世界各国相关领域研究人员和高科技公司的重视,语音、图像和自然语言处理是深度学习算法应用最广泛的3个主要研究领域。
1.深度学习在语音识别领域的研究现状
高斯混合模型(Gauss Mixture Model,GMM)估计简单、使用方便,适合训练大规模数据,具有良好的区分度训练算法,这奠定了GMM在语音识别应用领域的主导性地位。在语音识别任务中,通常采用GMM来对其中每个单元的概率模型进行描述。然而,GMM作为一种浅层学习网络模型,其无法充分描述特征的状态空间分布。此外,通过GMM建模数据的特征通常只有数十个维度,特征之间的相关性很可能无法被充分描述。最后,GMM建模实质上是一种似然概率建模方式,即使一些模式分类之间的区分性能够通过区分度训练模拟得到,但是效果有限。
从2009年开始,微软亚洲研究院的语音识别专家们和深度学习领军人物Hinton合作。2011年,微软公司推出基于深度神经网络的语音识别系统,这一成果完全改变了语音识别领域已有的技术框架。采用深度神经网络后,样本数据特征间的相关性信息得以充分表示,将连续的特征信息结合构成高维特征,通过高维特征样本对深度神经网络模型进行训练。由于深度神经网络采用了模拟人脑神经的架构,通过逐层进行数据特征提取,最终得到适合进行模式分类处理的理想特征。
2.深度学习在图像识别领域的研究现状
深度学习最早涉足的领域便是图像处理任务。1989年,加拿大多伦多大学的教授Yann LeCun和他的同事便提出了卷积神经网络的相关理念,该网络是一种包含卷积层的深度神经网络模型。通常一个卷积神经网络架构包含两个可以通过训练产生的非线性卷积层,两个固定的子采样层和一个全连接层,隐藏层的数量一般为5个以上。CNN的架构设计是受到生物学家Hube和Wiesel的动物视觉模型启发而发明的,尤其是模拟动物视觉皮层的V1层和V2层中简单细胞和复杂细胞在视觉系统的功能。起初卷积神经网络在小规模的问题上取得了当时世界上最好的成果,但是在很长一段时间里一直没有取得重大突破,主要原因是卷积神经网络应用在大尺寸图像上一直不能取得理想结果,比如对于像素数很大的自然图像内容的理解,这一瓶颈使得它没有引起计算机视觉研究领域足够的重视。
直到2012年,Hinton教授构建深度神经网络在图像识别领域上的成就,带来了卷积神经网络在图像识别问题上的一次质的飞跃。Hinton教授对卷积神经网络的算法进行了改进,在模型的训练中引入了权重衰减,这可以有效地减小权重幅度,防止网络过拟合。卷积神经网络方面的研究取得突破也受益于GPU加速技术的发展,强大的计算能力使网络能够更好地拟合训练数据。目前,卷积神经网络被应用于人脸识别领域,通过深度学习模型进行人脸识别,不仅大幅提高了识别精度,同时所花费的资源也比人工进行特征提取要少得多。
3.深度学习在自然语言处理领域的研究现状
自然语言处理问题是深度学习在除了语音和图像处理之外的另一个重要的应用领域。数十年来,自然语言处理的主流方法是基于统计的模型,人工神经网络也是基于统计方法模型之一,但在自然语言处理领域却一直没有得到重视。语言建模时最早采用神经网络进行自然语言处理的问题。美国NEC研究院最早将深度学习引入到自然语言处理研究中,其研究院从2008年起采用将词汇映射到一维向量空间和多层一维卷积结构去解决词性标注、分词、命名实体识别和语义角色标注4个典型的自然语言处理问题。他们构建了一个网络模型用于解决4个不同问题,都取得了相当精确的结果。总体而言,深度学习在自然语言处理上所取得的成果和在图像语音识别方面相比相差甚远,所以深度学习仍有待深入研究。
深度学习是高度数据依赖型的算法,它的性能通常随着数据量的增加而不断增强,即它的可扩展性(Scalability)显著优于传统的机器学习算法。但如果训练数据比较少,深度学习的性能并不见得就比传统机器学习好。其潜在的原因在于,作为复杂系统代表的深度学习算法,只有数据量足够多,才能通过训练,在深度神经网络中,“恰如其分”地将把蕴含于数据之中的复杂模式表征出来。