1.2.2 大模型技术路线的胜利
正是基于Transformer模型,ChatGPT才有了今天的成功,而ChatGPT的成功,也是大模型技术路线的胜利。
这个只有注意力机制的Transformer模型不再是逐词处理,而是逐序列处理,并且可以并行计算,所以计算速度大大加快,使训练大模型、超大模型、超巨大模型成为可能。
于是,OpenAI公司开发了GPT-1,在当时是前所未有的大语言模型,有1.17亿个参数。其开发目标只有一个,就是预测下一个单词。如果说过去只是遮住句子中的一个词,让AI根据上下文“猜出”那个词,进行完形填空,那么GPT要做的,就是“猜出”后续的词,甚至形成一篇通顺的文章。
事实证明,基于Transformer模型和庞大的数据集,GPT做到了。OpenAI使用了经典的大型书籍文本数据集进行模型预训练。该数据集包含超过7000本从未出版的书,涵盖冒险、奇幻等类别。在预训练之后,OpenAI针对问答、文本相似性评估、语义蕴含判定及文本分类这4种语言场景,使用不同的特定数据集对模型进一步训练。最终形成的模型在这4种语言场景下都取得了比基础Transformer模型更优的结果,成为新的业内第一。
2019年,OpenAI公布了一个具有15亿个参数的模型:GPT-2。该模型架构与GPT-1原理相同,主要区别是GPT-2的规模更大。不出意料,GPT-2模型刷新了大语言模型在多项语言场景中的评分纪录。
而GPT-3的整个神经网络更是达到了惊人的1750亿个参数。除规模大了整整两个数量级外,GPT-3与GPT-2在模型架构上没有本质区别。不过,就是在如此庞大的数据训练下,GPT-3模型已经可以根据简单的提示自动生成完整的、文从字顺的长文章,让人几乎不能相信这是机器的作品。GPT-3还会写程序代码、创作菜谱等几乎所有的文本创作类任务。
特别值得一提的是,在GPT诞生的同期,还有一种火爆的语言模型,即BERT。BERT是谷歌基于Transformer所做的一种双向的语言模型,通过预测屏蔽子词进行训练—先将句子中的部分子词屏蔽,再令模型去预测被屏蔽的子词,这种训练方式在语句级的语义分析中取得了极好的效果。BERT模型还使用了一种特别的训练方式—先预训练,再微调,这种方式可以使一个模型适用于多个应用场景。这使得BERT刷新了11项NLP任务处理的纪录,引发了众多AI研究者的跟随。
面对BERT的火爆,OpenAI依然坚持做生成式模型,而不是去做理解,于是就有了后来的GPT-3和今天的ChatGPT。
从GPT-1到GPT-3,OpenAI用了两年多时间,证明了大模型的可行性,参数规模从1.17亿飙升至1750亿,也似乎证明了参数越多,人工智能的能力越强。因此,在GPT-3成功后,包括谷歌在内的公司竞相追逐大模型,参数量高达惊人的万亿甚至十万亿规模,掀起了一场参数竞赛。
但这个时候,反而是GPT系列的开发者们冷静了下来,没有再推高参数量,而是又用了近两年时间,花费重金,用人工标注大量数据,将人类反馈和强化学习引入大模型,让GPT系列能够按照人类价值观优化数据和参数。
这也让我们看到一点,那就是ChatGPT的突破可以说是偶然的,同时也是必然的。偶然性在于ChatGPT的研发团队并没有预料到自己要研究的技术方向,在经历多次的参数调整与优化之后,模型取得了类人的语言逻辑能力。因此这种偶然性就如同技术的奇点与临界点被突破一样。必然性在于ChatGPT团队在自己所选择的基于NLP神经网络的技术方向上持续地深入与优化,每一次的参数优化都是几何倍数级的,这种量变的积累必然会带来质变的飞跃。