多模态大模型:算法、应用与微调
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 ViT模型介绍

要论2020年在计算机视觉领域哪个研究成果的影响力最大,那就当数谷歌团队提出的ViT(Vision Transformer)了。它挑战了自从2012年以来由AlexNet提出的卷积神经网络在计算机视觉领域绝对的统治地位。

在当时,虽然Transformer已经是自然语言处理领域的首选模型了,但是用来做计算机视觉领域的任务还是有一些限制。在计算机视觉领域,自注意力机制要么与卷积神经网络一起用,要么将某些卷积神经网络中的卷积操作替换成自注意力操作,但是保持整体的结构不变。而ViT证明了在计算机视觉领域中并非必须依赖卷积神经网络,将一个单纯的Transformer的编码器直接应用于图像分类任务的效果也是很好的,尤其是先在大量图像上进行预训练,再迁移到中小规模图像上进行识别。

ViT不仅对计算机视觉领域产生了深刻影响,还打破了计算机视觉和自然语言处理在模型上的壁垒,使其在模型结构上达成了统一,所以在多模态领域也产生了深刻影响。于是,后续各种基于ViT的工作层出不穷,可以说是开启了计算机视觉领域的一个新时代。在第3章的CLIP模型和Stable Diffusion模型中,也都使用了预训练好的ViT模型。