AIGC从入门到实战:ChatGPT+Midjourney+Stable Diffusion+行业应用
上QQ阅读APP看书,第一时间看更新

1.3 递进:人工智能时代的变化

1.3.1 AI 2.0向多领域、全场景应用迈进

随着AI 1.0时代的基础建设完成,人工智能开始进入AI 2.0时代。在这一阶段,人工智能从单一领域向多领域、全场景应用迈进,改变了人们的生活和工作方式。

在AI 2.0时代,算力、算法、数据依然是人工智能发展的基础。但是随着技术的进步,它们也得到了更加深入的应用和发展。

算力方面,人工智能利用分布式计算和边缘计算技术,更加高效地处理数据和执行任务。

算法方面,人工智能进一步探索深度学习的极限,以及向更加复杂和高级的算法领域拓展,例如强化学习、迁移学习等。

数据方面,人工智能更加依赖自身的数据生成能力,例如自监督学习和增强学习等技术,以及更加广泛的数据共享和协作,这样,人工智能就能更加准确地理解和应用现实世界中的数据。

人工智能应用的涌现,使得人们更加积极地思考人工智能对人类的影响。例如,人工智能的普及可能会导致一些就业岗位消失,但同时也会创造新的岗位和机会。我们需要更加积极地应对这些挑战和机遇,让人工智能成为人类社会可持续发展的助推器。

1.3.2 AIGC的产业图谱带来新的创变纪元

AIGC的产业图谱如图1-4所示,相关产业的发展将开启新的创变纪元,帮助年轻一代逐梦AIGC时代。

图1-4

AIGC的产业图谱自下而上由基础的硬件算力、基于平台的大模型、在此基础上出现的各种功能、相应的各种实际应用及行业场景组成。

图中提到的跨模态生成(cross-modal generation)和多模态生成(multimodal generation)不同,虽然都涉及处理多种类型的数据(如文本、图像、音频等),但它们的含义和应用场景有所不同。

跨模态生成通常指的是从一种模态的数据生成另一种模态的数据。例如,给定一段文本描述,生成对应的图像;或者给定一张图像,生成描述这张图像的文本。这种生成过程涉及从一种模态转换到另一种模态,因此被称为“跨模态生成”。

多模态生成则更多地关注如何利用多种模态的数据共同生成新的内容。例如,给定一段音频和对应的文本,生成一个同步的动画。在这种情况下,生成过程需要同时考虑多种模态的数据,因此被称为“多模态生成”。多模态生成的示例如下。

文本和音频生成视频:给定一段文本和配套的音频,生成一个视频。

图像和文本生成音频:给定一张图像和一段文本描述,生成一个描述图像内容的音频。

音频和视频生成文本:给定一个视频和配套的音频,生成一段描述视频内容的文本。

文本和音频生成音乐:给定一段歌词和一段旋律,生成一首歌曲。

图像和文本生成3D模型:给定一张图像和一段文本描述,生成一个3D模型。

模型层中自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)是自然语言处理(Nature Language Processing,NLP)中的两个关键领域。NLU致力于使计算机能够理解和解释人类自然语言,而NLG则专注于使用计算机生成人类可读的自然语言文本。

以下模型属于NLU。

Transformer:Transformer模型是一种深度学习模型架构,主要用于处理序列数据,核心思想是利用自注意力机制(Self-Attention)来捕获输入序列中的全局依赖关系。Transformer模型的设计使其在处理长序列和捕捉长距离依赖关系方面具有优势,并且由于其擅长并行处理,它能够更有效地利用硬件资源,从而加速模型训练。Transformer作为目前广泛应用于自然语言处理任务的模型,通常用于机器翻译、文本分类等方面。

BERT:BERT全称为Bidirectional Encoder Representations from Transformers,即基于Transformer的双向编码器表示,是由Google在2018年提出的一种自然语言处理模型。它的主要创新之处在于使用了Transformer的双向编码器,这使得BERT能够对输入文本进行全面的理解,从而在许多NLP任务中取得了显著的改进。BERT作为一种预训练的语言模型,通常用于处理自然语言理解任务,如语义理解、命名实体识别等方面的任务。

以下模型属于NLG。

基于流的生成模型(Flow-Based Model):这个模型的基本思想是,将一个简单的概率分布(如高斯分布)通过一系列可逆的变换(也称为“流”)映射到一个复杂的概率分布。这些变换是经过特别设计的,以便计算它们的雅可比行列式,从而能够高效地计算目标分布的概率密度和采样。基于流的生成模型的主要优点是它们能够同时进行精确的密度估计和高效的采样,这使得它们在生成任务中特别有用,基于流的生成模型可以生成具有多样性的文本。

基于预训练的生成式Transformer模型(Generative Pretrained Transformer,GPT):由OpenAI开发,主要用于各种自然语言理解和生成任务。GPT模型采用了Transformer的架构,并对其进行了预训练,使其能够在没有标签的大规模文本数据上进行无监督学习。这种预训练方法可以帮助模型学习到丰富的语言表示,从而在微调阶段可以更好地适应各种下游任务(指其后续进行的如文本分类、情感分析、命名实体识别、机器翻译等任务)。作为一种常用的预训练的生成式语言模型,GPT一般用于生成自然语言文本,如对话系统、文章生成等。

生成式语言模型(Generative Language Model,GLM):是一种广义语言模型,它是在GPT模型基础上的扩展。在中文环境中,该模型常常直接用英文缩写GLM表示,而不进行翻译。它的主要特性是在处理语言生成任务时,不仅仅考虑上文的信息(也就是在当前位置之前的词),还要考虑下文的信息(也就是在当前位置之后的词)。这种特性有助于较好地理解和生成语言,因为在很多情况下,一个词的含义是由它的上下文共同决定的。这种在处理语言生成任务时同时考虑上下文的方法,也被用在了其他的模型中,如BERT模型。然而,不同于BERT使用了双向的Transformer编码器来实现这个目标,GLM是通过在训练过程中使用掩码机制(Masking Mechanism)来实现的,这使得GLM不需要额外的解码过程,可以直接生成语言。GLM作为一种生成模型,作用是生成自然语言文本,主要用于自然语言生成任务。

音频生成模型、图像生成模型、视频生成模型、多模态生成模型也有很多,下面一一进行说明。

以下模型属于图像生成模型。

生成对抗网络(GAN):深度学习领域的一个重要概念,由伊恩•古德费洛等人于2014年首次提出。GAN的基本思想是通过对抗性的过程来生成数据。GAN由两部分组成:一个是生成器(Generator),另一个是判别器(Discriminator)。在训练过程中,生成器和判别器会博弈:生成器试图生成越来越逼真的假数据以欺骗判别器,而判别器则试图变得越来越擅长区分真假数据。通过这种博弈,GAN最终能够生成与真实数据非常接近的假数据。GAN在各种应用中展示了其强大的能力,包括图像生成、图像超分辨率、图像到图像的转换、语音生成等。在图像生成模型中,GAN是一类用于生成逼真图像的模型,包括 DC-GAN、PG-GAN、Style-GAN 等。

扩散模型(Diffusion Model):深度学习领域的一种扩散型的生成模型,核心思想是将数据生成过程视为一种从一个已知的简单分布(如高斯分布)向目标数据分布转变的扩散过程。它的一个关键步骤是定义一系列的转换,这些转换将简单分布逐渐“扭曲”成目标分布。在生成新的数据点时,模型首先从简单分布中抽取一个样本,然后将这个样本通过一系列的转换,逐渐变形为一个新的数据点。扩散模型已经在多种任务中表现出了强大的性能,包括在图像生成、语音生成等任务中。

变分自编码器模型(VAE):一种深度学习模型,在自编码器(AutoEncoder)的基础上,引入了概率编程和变分推断的思想,其目标是学习数据的潜在分布,然后从这个分布中采样生成新的数据,具有类似于输入数据的特征。VAE主要用于生成任务,不过它在许多任务中具有广泛的应用,包括数据生成、图像生成、图像插值、数据降维和特征学习等,在探索数据的潜在结构和生成新的样本方面提供了有效的方式。

以下模型属于音频生成模型。

WaveGAN:WaveGAN 是一种基于GAN的模型,用于生成逼真的音频波形。

WaveNet:WaveNet 是一种基于深度卷积神经网络的模型,可以生成高质量的语音和音乐。

MelGAN:MelGAN 是一种基于GAN的模型,用于生成高质量的梅尔频谱特征,然后将其转换为音频波形。

Tacotron 2:Tacotron 2 是一种序列到序列(Seq2Seq)的模型,用于将文本转换为逼真的语音。

以下模型属于视频生成模型。

VideoGAN:类似于图像生成模型的 GAN,但针对视频生成进行了扩展,例如 VGAN、MoCoGAN 等。

Video Prediction Model:用于预测视频未来帧的模型,可以用于生成连续性视频,如 PredNet、ConvLSTM 等。

以下模型属于多模态生成模型。

对比性语言-图像预训练模型(Contrastive Language-Image Pretraining,CLIP):OpenAI在2021年推出的一种多模态生成模型,它的设计目标是理解和生成图像和文本之间的关系,这是通过同时训练语言和视觉模型来实现的。在训练过程中,CLIP会从互联网上的大量文本和图像对中学习,目标是确保文本与其对应的图像之间的内积(即它们之间的相似度)尽可能大,而与其他图像或文本的内积尽可能小。

DALL-E:是一个图像生成模型,不过它最擅长根据文本描述生成对应的图像。DALL-E是由OpenAI开发的一个AI模型,它的目标是根据给定的文本描述生成对应的图像。DALL-E 是在GPT-3和VQ-VAE-2(用于学习图像的离散表示的生成模型)的基础上训练的。“DALL-E”这个名字来自著名的画家达利,意味着这个模型具有生成图像的能力,并且它的能力是超越了GPT-3文本生成能力的新能力。DALL-E 在许多场景中都表现出了强大的性能,包括生成从未存在过的生物、物体,甚至是符合特定风格或主题的图像,使得它在艺术创作、产品设计、动画制作等领域有着广泛的应用潜力。

Multimodal Transformer:一类结合图像和文本的Transformer模型,用于跨模态生成任务。

神经辐射场(Neural Radiance Fields,NeRF)目前比较难归类,可以归到图像/视频生成模型中,它是一种深度学习方法,用于生成高质量3D场景的建模和渲染。NeRF的目标是从一系列2D图片中学习对一个3D场景的全局表示,然后用这个表示来生成新的2D视图。

自从NeRF在2020年被提出以来,它已经在3D建模和渲染的任务中显示出了很高的性能,包括从稀疏的2D图片中重建3D场景,以及生成新的2D视图。

需要注意的是,上述模型可以在不同任务和领域中灵活应用,它们的归属也会根据模型的设计和主要应用领域而有所变化,并不绝对。

AIGC的产业图谱有如下用途。

了解整体生态:产业图谱可以帮助我们全面了解AIGC领域的整体生态,包括底层基础设施、关键技术和应用场景等,帮助我们把握行业发展的全貌和趋势。

识别发展机会:通过分析产业图谱,可以识别出AIGC领域的发展机会和趋势,了解不同层级之间的关系和相互作用,帮助企业和个人确定合适的发展方向和策略。

指导投资决策:产业图谱可以作为投资决策的参考依据,帮助投资者了解AIGC领域不同层级的发展情况,评估投资项目的风险和潜力,从而做出明智的投资决策。

促进合作与创新:产业图谱可以为不同企业、机构和个人之间的合作提供参考和平台,促进跨领域的合作与创新,推动AIGC领域的发展和进步。

总之,AIGC的产业图谱有助于整合、展示和理解AIGC领域的各个方面,为行业发展提供指导和参考,推动技术创新和商业应用的蓬勃发展。