导读序 奇事·奇人·奇书
奇事
本书的主题——ChatGPT可谓奇事。
从2022年11月发布到现在半年多的时间,ChatGPT所引起的关注、产生的影响,可能已经超越了信息技术历史上的几乎所有热点。
它的用户数2天达到100万,2个月达到1亿,打破了TikTok之前的纪录。而在2023年5月它上架苹果应用商店后,也毫无悬念地冲上了免费App榜榜首。
许多人平生第一次接触如此高智能、知错能改的对话系统。虽然它很多时候会非常自信、“一本正经地胡说八道”,甚至连简单的加减法也算不对,但如果你提示它错了,或者让它一步步地来,它就会很“灵”地变得非常靠谱,有条不紊地列出做事情的步骤,然后得出正确答案。对于一些复杂的任务,你正等着看它的笑话呢,它却会不紧不慢地给你言之成理的回答,让你大吃一惊。
众多业界专家也被它征服:原本不看好它甚至在2019年微软投资OpenAI的决策中投了反对票的盖茨,现在将ChatGPT与PC、互联网等相提并论;英伟达CEO黄仁勋称它带来了AI的“iPhone时刻”;OpenAI的山姆·阿尔特曼(Sam Altman)将它比作印刷机;谷歌CEO孙达尔·皮柴(Sundar Pichai)说它是“火和电”……这些说法都与腾讯创始人马化腾认为ChatGPT“几百年不遇”的观点不谋而合,总之都是说它开启了新时代。阿里巴巴CEO张勇的看法是:“所有行业、应用、软件、服务,都值得基于大模型能力重做一遍。”以马斯克为代表的很多专家更是因为ChatGPT的突破性能力可能对人类产生威胁,呼吁应该暂停强大AI模型的开发。
在刚刚结束的2023智源大会上,山姆·阿尔特曼很自信地说AGI(artificial general intelligence,通用人工智能)很可能在十年之内到来,需要全球合作解决由此带来的各种问题。而因为共同推动深度学习从边缘到舞台中央而获得图灵奖的三位科学家,意见却明显不同:
·杨立昆(Yann LeCun)明确表示GPT代表的自回归大模型存在本质缺陷,需要围绕世界模型另寻新路,所以他对AI的威胁并不担心;
·约书亚·本吉奥(Yoshua Bengio)虽然也不认同单靠GPT路线就能通向AGI(他看好将贝叶斯推理与神经网络结合),但承认大模型存在巨大潜力,从第一性原理来看也没有明显的天花板,因此他在呼吁暂停AI开发的公开信上签了字;
·压轴演讲的杰弗里·辛顿(Geoffrey Hinton)显然同意自己的弟子伊尔亚·苏茨克维(Ilya Sutskever)提出的“大模型能学到真实世界的压缩表示”的观点,他意识到具备反向传播机制(通俗地说就是内置“知错能改”机制)而且能轻易扩大规模的人工神经网络的智能可能会很快超过人类,因此他也加入到呼吁抵御AI风险的队伍中来。
以ChatGPT为代表的人工神经网络的逆袭之旅,在整个科技史上也算得上跌宕起伏。它曾经在流派众多的人工智能界内部屡受歧视和打击。不止一位天才先驱以悲剧结束一生:1943年,沃尔特·皮茨(Walter Pitts)在与沃伦·麦卡洛克(Warren McCulloch)共同提出神经网络的数学表示时才20岁,后来因为与导师维纳失和而脱离学术界,最终因饮酒过度于46岁辞世;1958年,30岁的弗兰克·罗森布拉特(Frank Rosenblatt)通过感知机实际实现了神经网络,而1971年,他在43岁生日那天溺水身亡;反向传播的主要提出者大卫·鲁梅尔哈特(David Rumelhart)则正值盛年(50多岁)就罹患了罕见的不治之症,1998年开始逐渐失智,最终在与病魔斗争十多年后离世……
一些顶级会议以及明斯基这样的学术巨人都曾毫不客气地反对甚至排斥神经网络,逼得辛顿等人不得不先后采用“关联记忆”“并行分布式处理”“卷积网络”“深度学习”等中性或者晦涩的术语为自己赢得一隅生存空间。
辛顿自己从20世纪70年代开始,坚守冷门方向几十年。从英国到美国,最后立足曾经的学术边陲加拿大,他在资金支持匮乏的情况下努力建立起一个人数不多但精英辈出的学派。
直到2012年,他的博士生伊尔亚·苏茨克维等在ImageNet比赛中用新方法一飞冲天,深度学习才开始成为AI的显学,并广泛应用于各个产业。2020年,他又在OpenAI带队,通过千亿参数的GPT-3开启了大模型时代。
ChatGPT自己的身世也极富有戏剧性。
2015年,30岁的山姆·阿尔特曼和28岁的格雷格·布罗克曼(Greg Brockman)与马斯克联手,召集了30岁的苏茨克维等多位AI顶级人才,共同创立OpenAI,希望在谷歌、Facebook等诸多巨头之外,建立中立的AI前沿科研阵地,并且雄心勃勃地把构建与人类水平相当的人工智能作为自己的目标。那时候,媒体报道基本上都以马斯克支持成立了一家非营利AI机构为标题,并没有多少人看好OpenAI。甚至连苏茨克维这样的灵魂人物,在加入前也经历了一番思想斗争。
前三年,他们在强化学习、机器人、多智能体、AI安全等方面多线出击,的确没有取得特别有说服力的成果。以至于主要赞助人马斯克对进展不满意,动了要来直接管理的念头。在被理事会拒绝后,他选择了离开。
2019年3月,山姆·阿尔特曼开始担任OpenAI的CEO,并在几个月内完成了组建商业公司、获得微软10亿美元投资等动作,为后续发展做好了准备。
在科研方面,2014年,富兰克林·欧林工程学院本科毕业两年的亚历克·拉德福德(Alec Radford)加入OpenAI,开始发力。作为主要作者,他在苏茨克维等的指导下,连续完成了PPO(2017)、GPT-1(2018)、GPT-2(2019)、Jukebox(2020)、ImageGPT(2020)、CLIP(2021)和Whisper(2022)等多项开创性工作。尤其是2017年关于情感神经元的工作,开创了“预测下一个字符”的极简架构结合大模型、大算力、大数据的技术路线,对后续的GPT产生了关键影响。
GPT的发展也不是一帆风顺的。
从下页图中可以清晰地看到,GPT-1的论文发表之后,OpenAI这种有意为之的更加简单的Eecoder-Only架构(准确地讲是带自回归的Encoder-Decoder架构)并没有得到太多关注,风头都被谷歌几个月之后发布的BERT(Encoder-Only架构,准确地讲是Encoder-非自回归的Decoder架构)抢去了。随后,出现了一系列 xxBERT类的很有影响的工作。
(大模型进化树,出自Amazon杨靖锋等2023年4月的论文“Harnessing the Power of LLMs in Practice”)
今天,BERT论文的引用数已经超过6.8万,比GPT-1论文的不到6000仍然高了一个数量级。两篇论文的技术路线不同,无论是学术界还是工业界,几乎所有人当时都选择了BERT阵营。
2019年2月发布的GPT-2将最大参数规模提升到15亿级别,同时使用了更大规模、更高质量和更多样的数据,模型开始展现很强的通用能力。当时令GPT-2登上技术社区头条的,还不是研究本身(直到今天,它的论文引用数也只有6000出头,远不如BERT),而是OpenAI出于安全考虑,一开始只开源了最小的3.45亿参数模型,引起轩然大波。社区对OpenAI不“Open”的印象,就始自这里。
这前后,OpenAI还做了规模对语言模型能力影响的研究,提出了“规模法则”(scaling law),确定了整个组织的主要方向:大模型。为此,OpenAI将强化学习、机器人等其他方向都砍掉了。难能可贵的是,大部分核心研发人员选择了留下。他们改变自己的研究方向,放弃小我,集中力量做大事——很多人转而做工程和数据等方面的工作,或者围绕大模型重新定位自己的研究方向(比如强化学习就在GPT 3.5以及之后的演进中发挥了重大作用)。这种组织上的灵活性,也是OpenAI能成功的重要因素。
2020年,GPT-3横空出世,NLP(natural language processing,自然语言处理)小圈子里的一些有识之士开始意识到OpenAI技术路线的巨大潜力。在中国,北京智源人工智能研究院联合清华大学等高校推出了GLM、CPM等模型,并积极在国内学术界推广大模型理念。从上页关于大模型进化树的图中可以看到,2021年之后,GPT路线已经完全占据上风,而BERT这一“物种”的进化树几乎停止了。
2020年底,OpenAI的两位副总达里奥·阿莫迪(Dario Amodei)和丹妮拉·阿莫迪(Daniela Amodei)(同时也是兄妹)带领GPT-3和安全团队的多位同事离开,创办了Anthropic。达里奥·阿莫迪在OpenAI的地位非同一般:他是伊尔亚·苏茨克维之外,技术路线图的另一个制定者,也是GPT-2和GPT-3项目以及安全方向的总负责人。而随他离开的,有GPT-3和规模法则论文的多位核心人员。
一年后,Anthropic发表论文“A General Language Assistant as a Laboratory for Alignment”,开始用聊天助手研究对齐问题,此后逐渐演变为Claude这个智能聊天产品。
2022年6月,论文“Emergent Abilities of Large Language Models”发布,第一作者是仅从达特茅斯学院本科毕业两年的谷歌研究员Jason Wei(今年2月,他在谷歌的“精英跳槽潮”中去了OpenAI)。他在论文中研究了大模型的涌现能力,这类能力在小模型中不存在,只有模型规模扩大到一定量级才会出现——也就是我们熟悉的“量变会导致质变”。
当年11月中旬,本来一直在研发GPT-4的OpenAI员工收到管理层的指令:所有工作暂停,全力推出一款聊天工具,原因是有竞争。两周后,ChatGPT诞生。这之后的事情已经载入史册。
业界推测,OpenAI管理层应该是得知了Anthropic Claude的进展,意识到这一产品的巨大潜力,决定先下手为强。这展现出核心人员超强的战略判断力。要知道,即使是ChatGPT的核心研发人员也不知道为什么该产品推出后会这么火(“我爸妈终于知道我在干什么了”),他们在自己试用时完全没有惊艳的感觉。
2023年3月,在长达半年的“评估、对抗性测试和对模型及系统级缓解措施的迭代改进”之后,GPT-4发布。微软研究院对其内部版本(能力超出公开发布的线上版本)研究的结论是:“在所有这些任务中,GPT-4的表现与人类水平接近得惊人……鉴于GPT-4的广度和深度,我们认为它可以合理地被视为AGI系统早期(但仍然不完整)的版本。”
此后,国内外的企业和科研机构纷纷跟进,几乎每周就有一个甚至多个新模型推出。但在综合能力上,OpenAI仍然一骑绝尘,唯一可以与之抗衡的,是Anthropic。
很多人会问:为什么中国没有产生ChatGPT?其实正确的问题(prompt)应该是:为什么全世界只有OpenAI能做出ChatGPT?他们成功的原因是什么?
对此的思考,到今天仍有意义。
ChatGPT,真奇事也。