1.2 深度学习的前世今生
由于深度学习与神经网络的渊源,深度学习的发展可以说是与人工神经网络密切相关。在人工智能的历史中,人工神经网络一直是一个分支,它被称为人工智能的连接学派,神经网络的发展可以说是一波三折。
1.2.1 深度学习的发展历史
人工智能诞生于1956年的达特茅斯会议,而早在1943年,美国心理学家麦卡洛克(W.McCulloch)和数学家皮兹(W.Pitts)就提出了一个简单的神经元模型(MP模型),开启了人工神经网络的研究。不过,人工神经网络在此之后十多年的研究进展缓慢。直到1957年,著名人工智能专家弗兰克·罗森布莱特(Frank Rosenblatt)提出了感知机模型(Perceptron),并提出了感知器参数的训练方法,正式开启了人们探索人工神经网络的热潮。感知器是最早且结构最简单的一种人工神经网络模型,是一种采用阈值型激活函数的前向人工神经网络,尽管只含有一层神经元,但通过训练网络权值,感知器可以根据一组输入响应得到1或0的目标输出。但受限于其只具有一层神经网络,感知器的分类能力非常有限。1969年,作为人工智能研究的早期奠基者之一的马文·明斯基(Marvin Minsky)撰文指出感知机器型的局限性:只能够处理简单的二元线性分类,它不能处理线性不可分问题,比如异或问题。在此后的将近20年里,人工智能虽然产生了很多不同的研究方向和研究成果,但人工神经网络研究陷入了低潮。
直到20世纪80年代,深度学习之父杰弗里·辛顿与其合作者提出了一种适用于多层感知器的反向传播算法——BP算法,解决了两层神经网络的复杂计算问题和马文·明斯基提出神经网络无法解决的异或问题。BP算法让人工神经网络再次引起了人们的广泛关注。人工神经网络在20世纪80年代末到90年代初风靡一时,演化成为可以与人工智能符号学派和人工智能行为学派并驾齐驱的连接主义学派。然而,由于当时计算机的硬件性能不足导致运算能力跟不上,以及当神经网络的层数进一步增加时,BP算法会产生“梯度消失”等问题,这使得人工神经网络的发展再次受到了很大的质疑,尤其是人工神经网络的不可解释性成为众矢之的。90年代中期,众多学者提出了以SVM、Logistic Regression、Maximum En-tropy Model和朴素贝叶斯模型等为代表的浅层机器学习算法,并成功应用于分类、回归问题,加之这类浅层机器学习算法的原理比神经网络模型具有更好的可解释性,支持向量机等算法成为20世纪90年代到21世纪初机器学习的宠儿,人工神经网络的发展再次进入了瓶颈期。
然而,仍有一些人仍在默默坚持神经网络的研究方向。1998年,杨·乐昆(Yann LeCun)提出了深度学习常用模型之一的卷积神经网络(Convoluted Neural Network, CNN)。2006年,杰弗里·辛顿(Geoffrey Hinton)与其他学者于2006年分别在Neural Computation与Science上联合发表了A Fast Learning Algo-rithm for Deep Belief Nets与Reducing the Dimensionality of Data with Neural Networks的论文,正式提出了深度学习的概念及深度置信网络模型,并且给出了“梯度消失”问题的解决方案。2009年,约书亚·本吉奥(Yoshua Bengio)提出了深度学习另一常用模型:堆叠自动编码器(Stacked Auto-Encoder, SAE),采用自动编码器来代替深度置信网络的基本单元。2011年借助辛顿的深度网络模型,人们首先在语音领域取得了突破。谷歌研究院和微软研究院的研究人员先后将深度学习应用到语音识别,使识别错误率下降了20%~30%。
深度学习真正引起世人关注是在2012年的ImageNet图像识别大赛中,由杰弗里·辛顿(Geoffrey Hinton)的学生阿莱克斯·克里兹维斯基(Alex Krizhevsky)带领的小组采用深度学习模型AlexNet一举夺冠,将分类错误率从25%降到了17%。AlexNet是一个深层次的卷积神经网络,采用ReLU激活函数,极大地解决了梯度消失问题,并采用GPU极大地提高了模型的运算速度。此后,这项竞赛每年都由深度卷积神经网络所主导。2014年,Google开始在ImageNet发力。当时在Google担任软件工程师的克里斯蒂安·赛格蒂(Christian Szegedy)提出了一种Inception的结构,并基于这种结构搭建了一个22层的卷积神经网络GoogleNet,达到了6.66%错误率的成绩。2015年,微软亚洲研究院的何恺明提出了深度残差网络(Deep Residual Networks),把网络层数做到了152层,并在Ima-geNet的分类比赛中取得了3.57%的错误率,超过了接收过训练的人在ImageNet数据集上对图片进行分类的成绩(5.1%)。此时ImageNet的分类任务被认为是一个已经完全解决的问题。自2012年以来,深度卷积神经网络已成为所有计算机视觉任务的首选算法。一般来说,它在所有感知任务上都有效。与此同时,深度学习也在许多其他类型的问题上得到应用,比如自然语言处理,它已经在大量应用中完全取代了SVM与决策树等机器学习算法。
深度学习技术在世界大赛的脱颖而出又进一步吸引了学术界和工业界对于深度学习领域的关注。随着深度学习技术的不断进步以及计算机硬件算力的不断提升,2014年,Facebook基于深度学习技术的DeepFace项目,在人脸识别方面的准确率已经能达到97%以上,跟人类识别的准确率几乎没有差别。这样的结果也再一次证明了深度学习技术在图像识别方面的一骑绝尘。2016年,谷歌公司基于深度强化学习开发的AlphaGo以4:1的比分战胜了国际顶尖围棋高手李世石,深度学习的热度一时无两。后来,AlphaGo又接连和众多世界级围棋高手过招,均取得了完胜。这也证明了在围棋界,基于深度学习技术的机器人已经超越了人类。2017年,基于深度强化学习技术的AlphaGo升级版AlphaGo Zero横空出世。其采用“从零开始”“无师自通”的学习模式,以100:0的比分轻而易举打败了之前的AlphaGo。除了围棋,它还精通国际象棋等其他棋类游戏,可以说是真正的棋类“天才”。此外在这一年,深度学习相关技术也在医疗、金融、艺术、无人驾驶等多个领域均取得了显著的成果。所以,也有专家把2017年看作是深度学习甚至是人工智能发展最为突飞猛进的一年。
回顾历史,深度学习的发展离不开GPU等硬件性能的提升,大数据的收集和各类深度学习算法的提出,更离不开以辛顿为首的科学家的坚持。2019年3月27日,美国计算机学会宣布,深度学习的三位创造者杰弗里·辛顿(Geoffrey Hinton)、杨·乐昆(Yann LeCun)和约书亚·本吉奥(Yoshua Bengio)共同获得了2019年的图灵奖,以表彰他们在深度学习领域的突出贡献(图1-5)。三位科学家发明了深度学习的基本概念,在科学研究中取得了卓越的成果,也在工程领域做出了重要突破,帮助深度学习技术获得实际应用,给人工智能带来了重大突破。
图1-5 2019年图灵奖获得者
1.2.2 深度学习的应用场景
近年来深度学习技术之所以能引起社会各界广泛的关注,是因为不光在学术界,同时也在工业界取得了重大突破和广泛的应用。其应用可分为视觉类领域(包括图像识别、视频识别、生物特征识别等)、自然语言处理领域(包括机器翻译、文本挖掘、情感分析等)和语音类领域(包括语音识别、语音合成等)等三大类。
视觉类领域是目前深度学习应用最为成熟的领域,也正是由于深度学习算法在ImageNet图像识别大赛中远超其他机器学习算法并以巨大优势夺魁才推动了人工智能发展的第三次浪潮。目前,通过卷积神经网络(CNN)构建的图像处理系统能够有效地减小过拟合,在融合GPU加速技术后,使得神经网络在实际中能够更好地拟合训练数据,更快更准确地识别图像内容。总而言之,深度学习模型可谓是和图像处理技术的完美结合,不仅能够提高图像识别的准确率,同时还可以在一定程度上提高运行效率,极大减少人力成本。目前,基于深度学习的视觉类应用包括图像识别、身份识别、人脸等生物特征识别、视频动作识别、自动驾驶、医疗影像诊断、图像生成等(图1-6)。
图1-6 新冠病毒医疗影像诊断
自然语言处理(Natural Language Processing, NLP)是语言学和人工智能的交叉科学,旨在让计算机能够“读懂”人类的语言。其包括的主要范畴有:分词、词性标注、命名实体识别、句法分析、关键词抽取、文本分类、自动摘要以及信息检索等。传统的自然语言处理主要是利用语言学领域本身的知识结合一些统计学的方法来获取语言知识。后来伴随着SVM、逻辑回归等机器学习浅层模型的发展,自然语言处理领域的研究取得了一定的突破,但在语义消歧、语言理解等方面还是显得力不从心。近年来,随着卷积神经网络、循环神经网络等深度学习相关技术的快速发展,深度学习在自然语言处理方面的应用也展现出了明显的优势。目前,基于深度学习的自然语言处理在文本分类、机器翻译、智能问答、智能推荐以及聊天机器人等方向都得到了极为广泛的应用。
语音相关的处理其实也属于自然语言处理的范畴,目前主要是语音合成(Text to Speech, TTS)和语音识别(Automated Speech Recognition, ASR)。同自然语言处理类似,语音合成和识别也是人工智能和其他学科的交叉领域,其所涉及的领域有:模式识别、信号处理、概率论、信息论等。语音识别和语音合成为人与计算机间的交互提供了更加人性化的交流途径,但识别的准确率和合成效果一直受限于技术发展而影响了其推广应用。近年来随着深度学习技术的兴起,语音识别和语音合成技术取得显著的进步,基于深度学习的语音处理技术从实验室走向了市场,更得到了谷歌、微软、百度以及科大讯飞等众多科技公司的青睐。语音输入法、家用聊天机器人、医疗语音救助机、智能语音穿戴设备等具体的应用场景也是层出不穷。
基于这些技术,国内外众多科研人员和高科技企业开发了包括无人驾驶、智能搜索、语音助手、智慧家居等种类繁多的智能系统和产品,其中相当一部分已经进入普通百姓的日常生活中。苹果公司的人工智能技术多数已经实现在其产品中,如iPhone X采用的人脸识别技术引领了智能手机刷脸认证的新变革,在Siri等语音识别应用中利用深度神经网络算法提升语音识别的准确率,在Apple Watch上采用人脸识别技术辨析用户锻炼状态等。微软致力于基于深度学习的语音识别和图像识别研究,相关成果用于微软系列产品中,如Skype即时翻译、小冰聊天机器人和小娜(Cortana)虚拟助理等。谷歌公司除了引人注目的AlphaGo以外,一直是无人驾驶车研发的领军人物。早在2015年,其外形酷似熊猫的无人驾驶车已经行驶在加利福尼亚州芒廷维尤的街头,三年后,谷歌的无人驾驶车已经初步实现商业化运营(图1-7)。我国的人工智能技术创新主要以百度、阿里、腾讯、科大讯飞和商汤集团为首,这五家企业被列入科技部公布的国家新一代人工智能开放创新平台,其中百度以深度学习技术为核心进行多领域的应用开发,包括自动驾驶、语音识别、图像识别、自然语言处理等多个领域,阿里和腾讯主要以智能公共系统和医疗影像拓展人工智能应用领域为主要工作方向,科大讯飞公司则致力于智能语音及语言技术研究,其开发的智能语音识别系统已经成功应用于车辆、手机等各种产品。商汤集团关注于包括人脸识别、图像识别、文字识别、图像视频分析、自动驾驶、医疗影像识别等各类智能视觉技术。
图1-7 谷歌无人驾驶车