2.1.1 更强大的GPT版本
实际上,在大多数人都惊叹于ChatGPT强悍的能力时,却鲜有人知道,ChatGPT其实只是OpenAI匆忙推出的测试品。
据美国媒体报道,2022年11月中旬,OpenAI员工被要求快速上线一款被称为“Chat with GPT-3.5”的聊天工具,时限为两周后免费向公众开放。这与原本的安排不符。此前两年间,OpenAI一直在开发名为“GPT-4”的更强大的语言模型,并计划于2023年发布。2022年,GPT-4一直在进行内部测试和微调,做上线前的准备。但OpenAI的高管改变了主意。
由于担心竞争对手可能会在GPT-4发布之前,抢先发布自己的AI聊天工具,因此,OpenAI拿出了于2020年推出的旧语言模型GPT-3的强化版本GPT-3.5,并在此基础上进行了微调,促成了ChatGPT的诞生。
需要承认的是,虽然ChatGPT已经让我们窥见了通用AI的雏形,但依然面对许多客观的问题,如在一些专业领域,ChatGPT的应用还会出现一些低级错误。当然,这种情况是必然存在的,毕竟ChatGPT开放给公众的时间比较短,接受训练的领域与知识库相对有限,尤其是在有关数学、物理、医学等专业并带有一些公式与运算的方面。
于是,在发布了ChatGPT的三个月后,2023年3月15日,OpenAI正式推出了GPT-4。与ChatGPT的匆忙发布不同,GPT-4的推出是有所准备的。根据内部的消息,GPT-4早在2022年8月就训练完成了,之所以在半年后—2023年3月才面市,是因为OpenAI需要花6个月时间,让它变得更安全。图像识别、高级推理、单词掌握,是GPT-4的三项显著能力。
就图像识别功能来说,GPT-4可以分析图像并提供相关信息。例如,它可以根据食材照片来推荐食谱,为图像生成描述和图注等。
就高级推理功能来说,GPT-4能够针对3个人的不同情况做出一个会议的时间安排,回答存在上下文关联性的复杂问题。GPT-4甚至可以讲出一些质量一般、模式化的冷笑话。虽然并不好笑,但至少它已经开始理解“幽默”这一人类特质,要知道,AI的推理能力正是AI向人类思维逐渐进化的标志。
就单词掌握功能来说,GPT-4能够处理2.5万个单词,单词处理能力是ChatGPT的8倍,并可以用所有流行的编程语言写代码。
其实,在聊天过程中,ChatGPT与GPT-4的区别是很微妙的。当任务的复杂性达到足够的阈值时,差异就出现了,GPT-4比ChatGPT更可靠、更有创意,并且能够处理更细微的指令。
并且,GPT-4还能以高分通过各种标准化考试:GPT-4在模拟美国多州律师资格考试中取得的成绩超过90%的人类考生,在俗称“美国高考”的SAT阅读考试中的成绩排名超过93%的人类考生,在SAT数学考试中的成绩排名超过89%的人类考生。
美国多州律师资格考试一般包括选择题和作文两部分,涉及合同法、刑法、家庭法等,相比GPT-4排在前10%左右的成绩,GPT-3.5的成绩排名在倒数10%左右。在OpenAI的演示中,GPT-4还生成了关于复杂税务查询的答案,尽管无法验证。
2023年11月7日,在OpenAI首届开发者大会上,首席执行官山姆·阿尔特曼宣布了GPT-4的一次大升级,推出了GPT-4 Turbo。GPT-4 Turbo的“更强大”体现为它的六项升级:上下文长度的增加,模型控制,更新的知识,更强的多模态能力,模型自定义能力及更低的价格,更高的使用上限。
对于一般用户体验来讲,上下文长度的增加、更新的知识和更强的多模态能力是核心的改善。特别是上下文长度的增加,这在过往是GPT-4的一个软肋,它决定了与模型对话的过程中能接收和记住的文本长度。如果上下文长度较短,面对比较长的文本或长期的对话,模型就经常会“忘记”最近对话的内容,并开始偏离主题。GPT-4基础版本仅提供了8K的上下文记忆能力,即便是OpenAI提供的GPT-4扩容版本也仅仅能达到32K上下文长度,相比于主要竞品Anthropic旗下的Claude 2提供的100K上下文长度的能力,差距明显。这使得GPT-4在做文章总结等需要长文本输入的操作时常常力不从心。而经过升级的GPT-4 Turbo直接将上下文长度提升至128K,是GPT-4扩容版本的4倍,一举超过了竞品Claude 2的100K上下文长度。128K的上下文长度大概是什么概念?约等于300页标准大小的书所涵盖的文字量。除能够容纳更长的上下文外,山姆·阿尔特曼表示,新模型还能够在更长的上下文中保持连贯和准确。
就模型控制而言,GPT-4 Turbo为产品开发者提供了几项更强的控制手段,以更好地进行API和函数调用。具体来看,新模型提供了一个开源库—JSON Mode,可以保证模型以特定方式提供回答,调用API更加方便。另外,新模型允许同时调用多个函数,并引入了种子参数,在需要的时候,确保模型能够返回固定输出。
从知识更新来看,GPT-4 Turbo把知识库更新到了2023年4月,而最初版本的GPT-4的网络实时信息调用只能到2021年9月。虽然随着后续插件的开放,GPT-4可以获得最新发生的事件知识,但相较于融合在模型训练里的知识,这类附加信息因为调用插件耗时久、缺乏内生相关知识,所以效果并不理想。
GPT-4 Turbo具备更强的多模态能力,支持OpenAI的视觉模型DALL-E 3,还支持新的文本到语音模型—产品开发者可以从六种预设声音中任意选择。现在,GPT-4 Turbo可以图生图了。同时,在图像问题上,OpenAI推出了防止滥用的安全系统。OpenAI还表示,它将为所有客户提供牵涉版权问题的法律费用。在语音系统中,OpenAI表示,目前的语音模型远超市场上的同类产品,并发布了开源语音识别模型Whisper V3。
GPT-4 Turbo还有一个重要的升级就是价格降低。OpenAI表示,GPT-4 Turbo对开发人员来说运行成本更低。与GPT-4的0.03美元相比,每1000个Token[LLM(Large Language Model,大语言模型)读取的基本文本或代码单位]的输入成本仅0.01美元。