1.2.1 ChatGPT是如何炼成的
强悍的功能背后,技术并不神秘。本质上,ChatGPT是一个出色的NLP新模型。说到NLP,大多数人先想到的是Alexa和Siri这样的语音助手,因为NLP的基础功能就是让机器理解人类的输入,但这只是技术的冰山一角。NLP是人工智能和机器学习的子集,专注于让计算机处理和理解人类语言。虽然语音是语言处理的一部分,但NLP更重要的进步在于它对书面文本的分析能力。
ChatGPT是一种基于叫做Transformer的变换器模型的预训练语言模型。它通过庞大的文本语料库进行训练,学习自然语言的知识和语法规则。在被人们询问时,它通过对询问的分析和理解生成回答。Transformer模型提供了一种并行计算的方法,使得ChatGPT能够快速生成回答。
Transformer模型又是什么呢?这就需要从NLP的技术发展历程来看,在Transformer模型出现以前,NLP领域的主流模型是循环神经网络(Recurrent Neural Network,RNN),再加入注意力机制(Attention)。循环神经网络的优点是,能更好地处理有先后顺序的数据,如语言。注意力机制就是将人的感知方式、注意力的行为应用在机器上,让机器学会去感知数据中重要的和不重要的部分。比如,当人工智能产品识别一张动物图片时,最应关注的是图片中动物的面部特征,包括耳朵、眼睛、鼻子、嘴巴,而无须过于关注背景信息。可以说,注意力机制让人工智能拥有了理解的能力。
但是,“RNN+Attention”模式会使整个模型的处理速度非常慢,因为RNN是逐词处理的,并且,在处理较长序列,如长文章、书籍时,存在模型不稳定或者模型过早停止有效训练的问题。
于是,2017年,谷歌大脑团队在神经信息处理系统大会上发表了一篇名为Attention is All You Need(《自我注意力是你所需要的全部》)的论文,表示“不要RNN,而要Attention”。该论文首次提出了基于自我注意力机制(Self-attention)的(Transformer)模型,并首次将其用于NLP。相较于此前的RNN模型,2017年提出的Transformer模型能够同时进行数据计算和模型训练,训练时长更短,并且训练得出的模型可用语法解释,也就是模型具有可解释性。
这个最初的Transformer模型一共有6500万个可调参数。谷歌大脑团队使用了多种公开的语言数据集来训练这个最初的Transformer模型。这些语言数据集包括2014年英语—德语机器翻译研讨班数据集(有450万组英德对应句组),2014年英语—法语机器翻译研讨班数据集(有3600万组英法对应句组),以及宾夕法尼亚大学树库语言数据集中的部分句组(分别取了库中来自《华尔街日报》的4万个句子,以及另外的1700万个句子)。而且,谷歌大脑团队在文中提供了模型的架构,任何人都可以用其搭建类似架构的模型,并结合自己拥有的数据进行训练。
经过训练后,这个最初的Transformer模型在翻译准确度、英语句子分析等各项评分上都达到了业内第一,成为当时最先进的大语言模型。ChatGPT使用了Transformer模型的技术和思想,并在其基础上进行扩展和改进,以更好地适用于语言生成任务。