从深度学习到图神经网络:模型与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.1 欧氏空间难表示图

传统的深度学习模型非常擅长处理简单而有序的序列数据或栅格数据,如常见的图像、音频、语音和文本等。这些数据都属于定义在欧氏空间(Euclidean Space)的规则化数据,这些高维的规则化数据也被称为张量(Tensor)数据。目前,基于张量的计算是成熟且高效的[13]

张量是现代机器学习的基础。其本质是一个数据容器。多数情况下,它包含数字,因此可以把它想象成一个数字的水桶。我们可以认为:标量是零阶张量,矢量是一阶张量,矩阵是二阶张量,而三阶张量则好比立体矩阵,更高阶的张量用图形无法表达[9]

图1-8为图像、语音及文本类型的数据。文本数据和语音数据具有一定的时序性,属于1D栅格数据,这种序列结构与循环神经网络(Recurrent Neural Network, RNN)的“品性”非常契合,因此RNN及其变体——长短期记忆网络(Long Short-Term Memory, LSTM)[10]在具备时序特征的1D栅格数据处理上具有天然优势。

图1-8 图像、语音及文本类型的数据

静态的图像属于2D栅格数据,动态的视频属于3D栅格数据(或者说是具有时序特征的2D栅格数据),它们非常适配于卷积神经网络(Convolutional Neural Network, CNN)模型,因此CNN在图像数据的处理上是高效的。这些栅格数据的相似度(距离感)都可以在欧氏空间中刻画和表达。

相比规则性很强的栅格数据,图的表示要复杂得多。图之间的相似性也很难在欧氏空间中衡量。因此,人们不得不寻求在非欧氏空间中来定义图。然而,在非欧氏空间中,图数据仅仅具备局部平稳(Locally Stationary)性,且具有明显的层次结构。

传统计算框架处理大规模的图数据存在巨大的挑战。因此,如何设计一种与深度学习兼容的数据表达方式,对于图数据的表示(Representation)而言,并不是一件很直观的事情。人们需要探索出一套通用且支持可导的图计算模型。