多模态大模型:算法、应用与微调
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 Transformer模型介绍

Transformer是一个完全基于注意力机制训练的模型,在2017年发表的论文“Attention Is All You Need”(https://arxiv.org/abs/1706.03762)中首次提出,用于机器翻译任务,它在特定任务中的表现优于谷歌的其他神经网络机器翻译模型。Transformer也是Seq2Seq结构的模型,相比于之前基于RNN的Seq2Seq结构模型,Transformer模型具有更好的并行性,能够极大地提高模型的训练和推理速度。