1.2 什么是深度学习
深度学习是使用多层结构从原始数据中自动学习并提取高层次特征的一类机器学习算法。通常,从原始数据中提取高层次、抽象的特征是非常困难的。深度学习将原始的数据表示成一个嵌套的特征层级,这样一来,每层特征均可以由更简单的特征来定义和计算。尤为重要的是,深度学习可以自动地学习如何最优地将不同的特征置于哪一层。也就是说,相比于传统机器学习算法需要提供人工定义的特征,深度学习可以自己学习如何提取特征。因此,相比于传统的机器学习算法,深度学习并不依赖复杂且耗时的手动特征工程。
深度学习中的“深度”体现在将数据转换为所需要数据的层数之深。给定模型进行数据输入,可以将描述模型如何得到输出的流程图中的最长路径的长度记为模型的深度。另一方面,在深度概率模型中,也把描述概念之间如何相互关联的图的深度而非计算图的深度记为一种模型的深度。值得注意的是,后者用来计算表示的计算图可能比概念图要深得多。鉴于这两种观点的共存,一般在一个模型有多深才算作“深度”模型上并没有达成共识。不过一般深度学习指的是比传统的机器学习需要更多的计算步骤或者概念学习的模型。
绝大多数的深度学习模型是以人工神经网络(Artificial Neural Network,ANN)为基础构建的。人工神经网络是受人脑的启发而发明的计算系统。一个人工神经网络是由一个相互连接的被叫作神经元的单元组成的集合。神经元以层的形式被组织起来,不同的层对输入做不同的变换来获得不同层次的抽象和特征提取。不同的神经元之间的连接被赋予不同的权重,代表了一个神经元对另一个神经元的影响。感知机(Perceptron)是最早可以从样本数据中学习权重的模型。感知机的学习算法属于线性模型的参数学习方法。虽然线性模型仍然是一种被广泛使用的机器学习算法,却存在很多缺陷,最著名的缺陷是感知机无法学习异或(XOR)函数。
目前,最为典型的深度学习模型框架是前向神经网络(Feedforward Neural Network),也被叫作多层感知机(Multi Layer Perceptron,MLP)。前向神经网络之所以被称作“前向”是因为通过该网络的信息流是前向传递的,从输入数据开始,经过中间层的计算,得到最终输出。整个结构没有反馈连接,信息单向传播。前向神经网络构成了很多实用的深度学习模型的基础。例如,用于计算机视觉任务的卷积神经网络(Convolution Neural Network,CNN)就是一种特殊的前向神经网络。当前向神经网络被拓展到允许反馈连接时,被叫作循环神经网络(Recurrent Neural Network,RNN)。卷积神经网络和循环神经网络在现实应用中取得了非常大的成功。下面介绍的深度学习的现实应用很多都是以它们作为基础的。