奇书
奇事 + 奇人,本书当然可谓奇书了。
像斯蒂芬·沃尔弗拉姆这样的大神能动手为广大读者极为关注的主题写一本通俗读物,这本身就是一个奇迹。
他40年前从纯物理转向复杂系统的研究,就是想解决人类智能等现象的第一性原理,因此有很深的积累。因为他交游广泛,与杰弗里·辛顿、伊尔亚·苏茨克维、达里奥·阿莫迪等关键人物都有交流,所以有第一手资料,保证了技术的准确性。难怪本书出版后,OpenAI的CEO称之为“对ChatGPT原理最佳的解释”。
全书包括两篇文章,篇幅很短,但是把关于ChatGPT的最重要的点都讲到了,而且讲得通俗透彻。
我在图灵社区发起了“ChatGPT共学营”,与各种技术水平、专业背景的同学有很多交流,发现要理解大模型,正确建立一些核心概念是非常关键的。没有这些支柱,即使你是资深的算法工程师,认知也可能会有很大的偏差。
比如,GPT技术路线的一大核心理念,是用最简单的自回归生成架构来解决无监督学习问题,也就是利用无须人特意标注的原始数据,学习其中对世界的映射。自回归生成架构,就是书中讲得非常通俗的“只是一次添加一个词”。这里特别要注意的是,选择这种架构并不是为了做生成任务,而是为了理解或者学习,是为了实现模型的通用能力。在2020年之前甚至之后的几年里,业界很多专业人士想当然地以为GPT是搞生成任务的,所以选择了无视。殊不知GPT-1论文的标题就是“通过生成式预训练改进语言理解”(“Improving Language Understanding by Generative Pre-Training”)。
再比如,对于没有太多技术背景或者机器学习背景的读者来说,了解人工智能最新动态时可能遇到的直接困难,是听不懂总是出现的基本概念“模型”“参数(在神经网络中就是权重)”是什么意思,而且这些概念很难讲清楚。本书中,大神作者非常贴心地用直观的例子(函数和旋钮)做了解释(参见“什么是模型”一节)。
关于神经网络的几节图文并茂,相信对各类读者更深刻地理解神经网络及其训练过程的本质,以及损失函数、梯度下降等概念都很有帮助。
作者在讲解中也没有忽视思想性,比如下面的段落很好地介绍了深度学习的意义:
“深度学习”在2012年左右的重大突破与如下发现有关:与权重相对较少时相比,在涉及许多权重时,进行最小化(至少近似)可能会更容易。
换句话说,有时候用神经网络解决复杂问题比解决简单问题更容易——这似乎有些违反直觉。大致原因在于,当有很多“权重变量”时,高维空间中有“很多不同的方向”可以引导我们到达最小值;而当变量较少时,很容易陷入局部最小值的“山湖”,无法找到“出去的方向”。
而下面这一段讲清楚了端到端学习的价值:
在神经网络的早期发展阶段,人们倾向于认为应该“让神经网络做尽可能少的事”。例如,在将语音转换为文本时,人们认为应该先分析语音的音频,再将其分解为音素,等等。但是后来发现,(至少对于“类人任务”)最好的方法通常是尝试训练神经网络来“解决端到端的问题”,让它自己“发现”必要的中间特征、编码等。
掌握这些概念的“why”,有益于理解GPT的大背景。
嵌入这个概念无论对从事大模型研发的算法研究者、基于大模型开发应用的程序员,还是想深入了解GPT的普通读者,都是至关重要的,也是“ChatGPT的中心思想”,但是它比较抽象,不是特别容易理解。本书“‘嵌入’的概念”一节是我见过的对这一概念最好的解释,通过图、代码和文字这三种解读方式,让大家都能掌握。当然,后文中“意义空间和语义运动定律”一节还有多张彩图,可以进一步深化这一概念。“‘嵌入’的概念”一节最后还介绍了什么是标记(token),并举了几个直观的英文例子。
接下来对ChatGPT工作原理和训练过程的介绍也通俗而不失严谨。不仅把Transformer这个比较复杂的技术讲得非常细致,而且如实告知了目前理论上并没有搞清楚为什么这样就有效果。
第一篇最后结合作者的计算不可约理论,将对ChatGPT的理解上升到一个高度,与伊尔亚·苏茨克维在多个访谈里强调的“GPT的大思路是通过生成来获取世界模型的压缩表示”异曲同工。
在我看来,下面这一段落是非常引人深思的:
产生“有意义的人类语言”需要什么?过去,我们可能认为人类大脑必不可少。但现在我们知道,ChatGPT的神经网络也可以做得非常出色……我强烈怀疑ChatGPT的成功暗示了一个重要的“科学”事实:有意义的人类语言实际上比我们所知道的更加结构化、更加简单,最终可能以相当简单的规则来描述如何组织这样的语言。
语言是严肃思考、决策和沟通的工具。从孩子的成长过程来看,相比感知、行动,语言应该是智能中更难的任务。但ChatGPT很可能已经攻破了其中的密码,正如Wolfram说的“它也在某种意义上‘钻研’到了,不必考虑可能的不同措辞,就能‘以语义上有意义的方式组织语言’的地步”。这确实预示着未来我们通过计算语言或者其他表示方式,有可能进一步大幅提升整体的智能水平。
由此推广开来,人工智能的进展有可能在各学科产生类似的效应:以前认为很难的课题,其实换个角度来看并不是那么难的。加上GPT这种通用智能助手的“加持”,“一些任务从基本不可能变成了基本可行”,最终使全人类的科技水平达到新高度。
本书的第二篇介绍了ChatGPT和Wolfram|Alpha系统的对比与结合,有较多实例。如果说GPT这种通用智能更像人类,而大部分人类其实是天生不擅长精确计算和思考的,那么未来通用模型与专用模型的结合,应该也是前景广阔的发展方向。
稍有遗憾的是,本书只重点讲了ChatGPT的预训练部分,而没有过多涉及后面也很重要的几个微调步骤:监督微调(supervised fine-tuning,SFT)、奖励建模和强化学习。这方面比较好的学习资料是OpenAI创始成员、前Tesla AI负责人安德烈·卡帕斯(Andrej Karpathy)2023年5月在微软Build大会上的演讲“State of GPT”。
在本书包含的两篇之外,沃尔弗拉姆还有一篇关于ChatGPT的文章“Will AIs Take All Our Jobs and End Human History—or Not? Well, It's Complicated...”,在更高层次上和更大范围内思考了ChatGPT的意义和影响。它也是《一种新科学》一书的延伸,充分体现了沃尔弗拉姆的思考深度。
关于AI能力的上限,他认为,根据“计算等价原理”,ChatGPT这种通用人工智能的出现证明了“(人类)本质上没有任何特别的东西——事实上,在计算方面,我们与自然中许多系统甚至是简单程序基本上是等价的”。因此,曾经需要人类努力完成的事情,会逐渐自动化,最终能通过技术免费完成。很多人认为是人类特有的创造力或原创力、情感、判断力等,AI应该也能够拥有。最终,AI也会逐步发展出自己的世界。这是一种新的生态,可能有自己的宪章,人类需要适应,与之共存共荣。
那么,人类还剩下些什么优势呢?
根据“计算不可约性原理”(即“总有一些计算是没有捷径来加速或者自动化的”,作者认为这是思考AI未来的核心),复杂系统中总是存在无限的“计算可约区”,这正是人类历史上能不断出现科学创新、发明和发现的空间。所以,人类会不断向前沿进发,而且永远有前沿可以探索。同时,“计算不可约性原理”也决定了,人类、AI、自然界和社会等各种计算系统具有根本的不可预测性,始终存在“收获惊喜的可能”。人类可贵的,是有内在驱动力和内在体验,能够内在地定义目标或者意义,从而最终定义未来。
我们又应该怎么做呢?
沃尔弗拉姆给出了如下建议。
·最高效的方式是发掘新的可能性,定义对自己有价值的东西。
·从现在的回答问题转向学会如何提出问题,以及如何确定哪些问题值得提出。也就是从知识执行转向知识战略。
·知识广度和思维清晰度将很重要。
·直接学习所有详细的知识已经变得不必要了:我们可以在更高的层次上学习和工作,抽象掉许多具体的细节。“整合”,而不是专业化。尽可能广泛、深入地思考,尽可能多地调用知识和范式。
·学会使用工具来做事。过去我们更倚重逻辑和数学,以后要特别注意利用计算范式,并运用与计算直接相关的思维方式。
的确,GPT可能对我们的工作、学习和生活方式产生巨大的影响,需要我们转换思维方式,需要新型的学习和交流方式。这正是我在图灵社区发起“ChatGPT共学营”的初衷。共学营是一个“课 + 群 + 书”的付费学习社区,这里不仅有我和众多专家的分享(开放和闭门直播课),有来自不同背景、不同行业、不同专业的同学每天在一起交流(微信群包含几千名优秀同学),还有系统的知识沉淀(电子书和知识库)。共学营中还提供了本书的导读课,以及“State of GPT”演讲的视频和中文精校文图,欢迎大家加入。
刘江
图灵公司联合创始人、前总编,曾任北京智源人工智能
研究院副院长、美团技术学院院长