1.6 Contextual Word Embedding
前面介绍了因word2vec而流行的Word Embedding,这种表示方法比离散的独热编码要好很多,因为它不仅降低了维度,还可以反映出语义空间中的线性关系,如“国王-王后≈男-女”这种相似关系。因此word2vec及其他类似方法几乎是所有深度模型必备的方法。但是,这类表示方法是根据语料库生成的字典,一个单词对应一个固定长度的向量,如果遇到一词多义的情况,它就无能为力了。
例如,在由“苹果股票正在上涨(Apple stock is rising),我不要这个苹果(I don’t want this apple)”构成的语料中,如果用word2vec模型实现词嵌入,就无法区分这两个苹果的含义。一词多义的情况是非常普遍的,如何有效解决一词多义的问题,一直是人们孜孜以求的目标。
本节将围绕Contextual Word Embedding(语境词嵌入)这个话题展开,讨论如何解决一词多义的问题。
根据word2vec生成词嵌入的特点,人们又称其为静态词嵌入。无论上下文及其含义是什么,静态词嵌入都会给出相同的表示。所以,如果要考虑上下文,我们不能使用静态词嵌入的方法,而应该使用动态词嵌入(或预训练模型+微调)的方法来处理。ELMo、GPT、GPT-2、BERT、ENRIE、XLNet、ALBERT等都属于此类动态词嵌入方法,它们极大提升了相关领域的性能,且目前还处于飞速发展之中。
1.6.1 多种预训练模型概述
词嵌入是预训练模型(Pre-Trained Model,PTM)的学习载体,根据词嵌入的学习方式,可分为上下文无关和上下文有关两类,两者的区别在于一个词语的嵌入是否随着上下文动态地变化。
- 上下文无关的词嵌入(Non-contextual Word Embedding)
只关注学习词嵌入的单一表示的预训练模型(如word2vec),训练完成后,其词嵌入就固定了(或处于静态),而且一个词对应一个固定词向量,其预训练的词嵌入虽可以捕获单词的语义,但无法解决一词多义问题,而一词多义在NLP中是非常普遍的。为解决这个问题,人们提出了上下文有关的词嵌入。
- 上下文有关的词嵌入(Contextual Word Embedding)
以学习上下文相关的词嵌入的预训练模型(如ELMo、BERT、GPT、XLNet等)是目前的研究重点,而且在很多领域取得了业内最好水平(SOTA),原因主要在于这些采用上下文有关学习方式的预训练模型是动态的。它们之所以能动态,是因为这些预训练模型除带有学习到的结果(即词嵌入)外,还带有学习这些词嵌入的模型架构和学到的权重参数等。因此,把这些预训练模型迁移到下游任务时,便可根据上下文动态调整。有些预训练模型甚至无须迁移,根据少量的提示语,就可直接生成新的语句,如GPT-2、GPT-3。
这些动态的预训练模型,依据的语言模型不尽相同,可谓“八仙过海各显神通”。ELMo、GPT采用自回归语言模型(Autoregressive Language Model,通常简写为AR LM)[1]、BERT使用掩码语言模型(Mask Language Model,MLM)、XLNet采用排列语言模型(Permuted Language Model,PLM)。
接下来对这三种语言模型做个简单介绍,详细说明请参考本书附录B。
1. 自回归语言模型
自回归语言模型是指通过给定文本的上文或下文,对当前字进行预测。例如,根据上文内容预测下一个可能跟随的单词,即我们常说的自左向右的语言模型任务,或者反过来,根据下文预测前面的单词,这种类型的LM被称为自回归语言模型,其损失函数(从左到右)如下所示:
其中:x <t={x 1,x 2,…,x t-1},T为输入序列的长度。
损失函数(从右到左)如下所示:
其中:x >t={x t+1,x t+2,…,x T},T为输入序列的长度。
自回归语言模型表示序列文本的联合概率分布,为降低对长文本的概率估算难度,通常使用一个简化的n-gram模型。代表模型有ELMo、GPT、GPT-2等。
2. Mask语言模型
Mask语言模型通过在输入序列中随机掩藏掉一部分单词,然后通过训练来预测这些被掩藏掉的单词。这点与噪音自编码(Denoising Autoencoder)很相似,那些被掩藏掉的单词就相当于在输入侧加入的所谓噪音。
其损失函数如下所示:
其中m(x)、分别表示从输入序列X中被掩藏的标识符集以及剩余的标识符集。代表模型有BERT、ERNIE、ALBERT。
3. 排列语言模型
排列语言模型综合了自回归语言模型和Mask语言模型的优点。其损失函数如下所示:
其中,Z <t=perm(X),即序列X的随机排列。代表模型为XLNet。
1.6.2 多种预训练模型的发展脉络
近些年基于深度学习的NLP技术的重大进展主要包括NNLM(2003)、Word Embedding(2013)、Seq2Seq(2014)、Attention(2015)、Transformer(2017)、GPT(2018)、BERT(2018)、XLNet(2019)、GPT-2(2019)、GPT-3(2020)等,主要预训练模型的大致发展脉络可用图1-34所示。
图1-34 预训练模型发展脉络
各种主要预训练模型的特征、抽取特征方法、使用语言模型类别等内容如表1-3所示。
表1-3 各种预训练模型的特点
1.6.3 各种预训练模型的优缺点
上节介绍了各种预训练模型,这些模型各有优点和缺点,新模型往往是在解决旧模型缺点的基础上提出的,如图1-35所示。
图1-35 近些年预训练模型遇到的问题及解决方法
1.6.4 常用预训练模型
预训练模型很多,发展也很迅速,这节我们介绍几种常用的预训练模型。
1. ELMo预训练模型
2018年的早些时候,AllenNLP的Matthew E. Peters等人在论文Deep Contextualized Word Representations(该论文获得了NAACL最佳论文奖)中首次提出了ELMo(Embedding from Language Model)预训练模型。从名称上可以看出,ELMo为了利用无标记数据,使用了语言模型。ELMo是最早进行语境化词嵌入的方法之一,是典型的自回归预训练模型,包括两个独立的单向LSTM实现的单向语言模型。ELMo的基本框架是一个双层的Bi-LSTM,每层对正向和反向的结果进行拼接,同时为增强模型的泛化能力,在第一层和第二层之间加入了一个残差结构。因此,ELMo在本质上还是一个单向的语言模型,其结构如图1-36所示。
图1-36 ELMo模型结构
2. Transformer简介
从表1-3可知,现在很多预训练模型均采用一种称为Transformer的特征提取器,之前我们一般采用RNN、LSTM等方法处理序列问题,这些方法在处理自然语言处理、语音识别等序列问题方面有一定优势,但也存在一些不足,如需要按次序处理问题时,这种按部就班的方法在大量的语料库面前就显得力不从心。其间虽然有人尝试用CNN方法避免这种串联式的运行方法,但效果不佳。而现在很多自然语言处理、语言识别、推荐算法、搜索排序等问题都需要依赖大量的语料库或成千上万的用户数据等,所以,如何解决这个问题成为新的瓶颈。
Transformer就是为解决类似问题而提出的,目前在很多领域的性能已远超RNN、LSTM。
Google于2017年6月在arxiv上发布了一篇非常经典的文章—Attention is all you need。该论文使用Self-Attention的结构代替LSTM,抛弃了之前传统的Encoder-Decoder模型必须结合CNN或者RNN的固有模式,在减少计算量和提高并行效率的同时还取得了更好的结果。该论文也被评为2017年NLP领域的年度最佳论文。
Transformer有两大亮点:平行处理序列问题,利用Self-Attention机制有效解决长期依赖问题。详细内容将在本书第5章介绍。
3. GPT、GPT-2和GPT-3预训练模型
GPT是在OpenAI团队于2018年6月发表的一篇论文Generative Pre-Training中提出的。从名字上就可以看出GPT是一个生成式的预训练模型,与ELMo类似,也是一个自回归语言模型。与ELMo不同的是,其采用多层单向的Transformer Decoder作为特征抽取器,多项研究也表明,Transformer的特征抽取能力是强于LSTM的。
GPT-2、GPT-3与GPT模型框架没有大的区别,GPT-2和GPT-3使用了更大的模型、更多的且质量更高的数据、涵盖范围更广的预训练数据,并采用了无监督多任务联合训练等。
4. BERT模型
BERT模型是由Google AI的Jacob Devlin和他的合作者们于2018年10月在arXiv上发表的一篇名为BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding的论文中提出的。
BERT属于MLM模型,通过超大数据、巨大模型和极大的计算开销训练而成,在11个自然语言处理的任务中取得了最优(SOTA)结果,并在某些任务性能方面得到极大提升。
1.6.5 Transformer的应用
目前主流的预训练模型,大都以2017年谷歌提出的Transformer模型作为基础,并以此作为自己的特征抽取器。可以说,Transformer自从出现以来就彻底改变了深度学习领域,最早波及NLP领域,近些年又向传统的搜索、推荐等领域拓展。
更可喜的是,目前Transformer也开始在视觉处理领域开疆拓土、攻城略地了。本节就将介绍Transformer在推荐系统及视觉处理方面的典型应用。
1. Transformer在推荐系统中的应用
2019年阿里搜索推荐团队在arXiv上发布了论文Behavior Sequence Transformer for E-commerce Recommendation in Alibaba。文中提出BST模型,利用Transformer中的多头自注意力(Multi-Head Self-Attention)机制替换LSTM,捕捉用户行为序列的序列信息,取得了非常好的效果,目前BST已经部署在淘宝推荐的精排阶段,每天为数亿消费者提供推荐服务。BST网络架构见图1-37。
图1-37 BST网络架构图
图1-38是使用BST与传统方法的比较结果。
图1-38 BST与传统方法的对比
目前,比较常用的Transformer应用实例有谷歌的推荐系统WDL(Wide and Deep Learning)和阿里的推荐系统DIN(Deep Interest Network for Click-Through Rate Prediction)。
2. Transformer在视觉处理领域的应用
2020年12月,北京大学联合华为诺亚方舟实验室、悉尼大学、鹏城实验室提出了一个图像处理Transformer(Image Processing Transformer,IPT),他们把Transformer技术应用到视觉处理上,用于完成超分辨率、去噪、去雨等底层视觉任务,结果在视觉处理领域超过了卷积神经网络(CNN),并且多项底层视觉任务达到业内最好水平(SOTA)。IPT的网络架构如1-39所示。
图1-39 IPT模型架构图
IPT整体架构由四个部分组成。
(1)头部(head)
采用多头架构,每个头由三个卷积层组成来分别处理每个任务。这部分主要负责从输入的损坏图像中提取特征,比如分辨率低、需降噪的图像。
(2)Transformer编码器
在将特征输入Transformer模块前,将给定的特征分割成特征块,每个特征块被视作一个“word”。
(3)Transformer解码器
与编码器采用了同样的架构。将解码器的输出作为Transformer的输入。
编码器与解码器用于恢复输入数据中的缺失信息。
(4)尾部(tail)
与头部的结构相同,用于将特征映射到重建图像中。
最后,研究人员使用ImageNet数据集进行预训练。结果表明,该模型只要在特定任务数据集上微调,即可在此任务上达到最好水平。他们对IPT与深度超分辨率网络(Enhanced Deep Super-Resolution,EDSR)在不同数量训练集上的性能进行了对比,如图1-40所示,当训练集数量较少时,EDSR具有更好的指标;当数据集持续增大后,EDSR很快达到饱和,而IPT仍可持续提升并大幅超过了EDSR。
图1-40 CNN和IPT模型在不同数据规模上的性能比较
[1]为了与后文的MLM、PLM区分,后文将简写为LM。