1.1.3 图像生成
就生成式人工智能在图像生成领域的应用来说,最早且最著名的示例之一是由Ian Goodfellow等人在2014年发表的文章“Generative Adversarial Networks”中介绍的生成对抗网络(Generative Adversarial Network,GAN)架构,这一架构能生成难以与真实图像区分的逼真图像。GAN有一些有趣的应用,例如为训练计算机视觉模型生成合成数据集、生成逼真的产品图像,以及生成用于虚拟现实和增强现实应用的逼真图像。
图1.3所示的虚构人脸图像均由人工智能(生成对抗网络)生成。
图1.3 由GAN StyleGAN2生成的虚构人脸图像(引自Random Face Generator官网)
2021年,OpenAI在图像生成领域引入了一个名为DALL-E的生成式人工智能模型。与GAN不同,DALL-E模型旨在根据自然语言描述生成图像(GAN则以随机噪声向量为输入),这些图像可能看起来没那么逼真,但足以表达所述内容。
DALL-E可以生成独特而富有创造力的图像,在广告、产品设计、时尚等创意产业中具有巨大的应用潜力。
图1.4展示了DALL-E根据自然语言描述生成的4张图像。
图1.4 DALL-E使用自然语言提示作为输入所生成的图像
注意,文本生成可以与图像生成相结合,以产生全新的素材。近年来,将二者结合的新型人工智能工具得到了广泛的应用。
Tome AI就是一个例子。这是一款基于人工智能的自动生成PPT的在线应用,除了基础功能,Tome AI还能利用DALL-E和GPT-3等模型从零开始创建幻灯片,如图1.5所示。
图1.5 一份关于生成式人工智能的演示文稿,完全由Tome AI使用自然语言输入生成
可以看到,Tome AI完全能够根据用户以自然语言输入的简短信息创建一个演示文稿。