多模态大模型:算法、应用与微调
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一篇 算法原理

本篇将介绍AIGC相关的算法原理。首先是Transformer模型,它最开始出现在自然语言处理(NLP)领域的论文中,是后续GPT系列模型的基础,之后更是渗透到计算机视觉(CV)领域和强化学习(RL)领域,可以说Transformer模型在现在的深度学习(DL)领域中扮演着不可或缺的角色。然后是GPT系列模型,GPT-3是大语言模型的起点,引领了ViT、CLIP(对比语言-图像预训练)、Diffusion和ChatGPT等多个领域大模型的崛起。之后是深度生成模型,包括生成对抗网络(GAN)、自编码器(AE)和图像生成领域中常用的稳定扩散模型(Stable Diffusion)。自此,大模型开始朝着多模态的方向发展。最后是预训练模型,讲解常见的分布式训练方式,同时带领读者体验由微软研究院开发的深度学习模型训练优化库——DeepSpeed,以及国内外常用的模型即服务(MaaS)平台,以帮助开发者快速建立应用。

在开始本篇之前,需要对深度学习、强化学习、词向量编码、卷积神经网络(CNN)和递归神经网络(RNN)有一定的了解。