2.1.1 更强大的GPT版本_Sora：读懂人工智能新纪元-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.1.1　更强大的GPT版本

实际上，在大多数人都惊叹于ChatGPT强悍的能力时，却鲜有人知道，ChatGPT其实只是OpenAI匆忙推出的测试品。

据美国媒体报道，2022年11月中旬，OpenAI员工被要求快速上线一款被称为“Chat with GPT-3.5”的聊天工具，时限为两周后免费向公众开放。这与原本的安排不符。此前两年间，OpenAI一直在开发名为“GPT-4”的更强大的语言模型，并计划于2023年发布。2022年，GPT-4一直在进行内部测试和微调，做上线前的准备。但OpenAI的高管改变了主意。

由于担心竞争对手可能会在GPT-4发布之前，抢先发布自己的AI聊天工具，因此，OpenAI拿出了于2020年推出的旧语言模型GPT-3的强化版本GPT-3.5，并在此基础上进行了微调，促成了ChatGPT的诞生。

需要承认的是，虽然ChatGPT已经让我们窥见了通用AI的雏形，但依然面对许多客观的问题，如在一些专业领域，ChatGPT的应用还会出现一些低级错误。当然，这种情况是必然存在的，毕竟ChatGPT开放给公众的时间比较短，接受训练的领域与知识库相对有限，尤其是在有关数学、物理、医学等专业并带有一些公式与运算的方面。

于是，在发布了ChatGPT的三个月后，2023年3月15日，OpenAI正式推出了GPT-4。与ChatGPT的匆忙发布不同，GPT-4的推出是有所准备的。根据内部的消息，GPT-4早在2022年8月就训练完成了，之所以在半年后—2023年3月才面市，是因为OpenAI需要花6个月时间，让它变得更安全。图像识别、高级推理、单词掌握，是GPT-4的三项显著能力。

就图像识别功能来说，GPT-4可以分析图像并提供相关信息。例如，它可以根据食材照片来推荐食谱，为图像生成描述和图注等。

就高级推理功能来说，GPT-4能够针对3个人的不同情况做出一个会议的时间安排，回答存在上下文关联性的复杂问题。GPT-4甚至可以讲出一些质量一般、模式化的冷笑话。虽然并不好笑，但至少它已经开始理解“幽默”这一人类特质，要知道，AI的推理能力正是AI向人类思维逐渐进化的标志。

就单词掌握功能来说，GPT-4能够处理2.5万个单词，单词处理能力是ChatGPT的8倍，并可以用所有流行的编程语言写代码。

其实，在聊天过程中，ChatGPT与GPT-4的区别是很微妙的。当任务的复杂性达到足够的阈值时，差异就出现了，GPT-4比ChatGPT更可靠、更有创意，并且能够处理更细微的指令。

并且，GPT-4还能以高分通过各种标准化考试：GPT-4在模拟美国多州律师资格考试中取得的成绩超过90%的人类考生，在俗称“美国高考”的SAT阅读考试中的成绩排名超过93%的人类考生，在SAT数学考试中的成绩排名超过89%的人类考生。

美国多州律师资格考试一般包括选择题和作文两部分，涉及合同法、刑法、家庭法等，相比GPT-4排在前10%左右的成绩，GPT-3.5的成绩排名在倒数10%左右。在OpenAI的演示中，GPT-4还生成了关于复杂税务查询的答案，尽管无法验证。

2023年11月7日，在OpenAI首届开发者大会上，首席执行官山姆·阿尔特曼宣布了GPT-4的一次大升级，推出了GPT-4 Turbo。GPT-4 Turbo的“更强大”体现为它的六项升级：上下文长度的增加，模型控制，更新的知识，更强的多模态能力，模型自定义能力及更低的价格，更高的使用上限。

对于一般用户体验来讲，上下文长度的增加、更新的知识和更强的多模态能力是核心的改善。特别是上下文长度的增加，这在过往是GPT-4的一个软肋，它决定了与模型对话的过程中能接收和记住的文本长度。如果上下文长度较短，面对比较长的文本或长期的对话，模型就经常会“忘记”最近对话的内容，并开始偏离主题。GPT-4基础版本仅提供了8K的上下文记忆能力，即便是OpenAI提供的GPT-4扩容版本也仅仅能达到32K上下文长度，相比于主要竞品Anthropic旗下的Claude 2提供的100K上下文长度的能力，差距明显。这使得GPT-4在做文章总结等需要长文本输入的操作时常常力不从心。而经过升级的GPT-4 Turbo直接将上下文长度提升至128K，是GPT-4扩容版本的4倍，一举超过了竞品Claude 2的100K上下文长度。128K的上下文长度大概是什么概念？约等于300页标准大小的书所涵盖的文字量。除能够容纳更长的上下文外，山姆·阿尔特曼表示，新模型还能够在更长的上下文中保持连贯和准确。

就模型控制而言，GPT-4 Turbo为产品开发者提供了几项更强的控制手段，以更好地进行API和函数调用。具体来看，新模型提供了一个开源库—JSON Mode，可以保证模型以特定方式提供回答，调用API更加方便。另外，新模型允许同时调用多个函数，并引入了种子参数，在需要的时候，确保模型能够返回固定输出。

从知识更新来看，GPT-4 Turbo把知识库更新到了2023年4月，而最初版本的GPT-4的网络实时信息调用只能到2021年9月。虽然随着后续插件的开放，GPT-4可以获得最新发生的事件知识，但相较于融合在模型训练里的知识，这类附加信息因为调用插件耗时久、缺乏内生相关知识，所以效果并不理想。

GPT-4 Turbo具备更强的多模态能力，支持OpenAI的视觉模型DALL-E 3，还支持新的文本到语音模型—产品开发者可以从六种预设声音中任意选择。现在，GPT-4 Turbo可以图生图了。同时，在图像问题上，OpenAI推出了防止滥用的安全系统。OpenAI还表示，它将为所有客户提供牵涉版权问题的法律费用。在语音系统中，OpenAI表示，目前的语音模型远超市场上的同类产品，并发布了开源语音识别模型Whisper V3。

GPT-4 Turbo还有一个重要的升级就是价格降低。OpenAI表示，GPT-4 Turbo对开发人员来说运行成本更低。与GPT-4的0.03美元相比，每1000个Token［LLM（Large Language Model，大语言模型）读取的基本文本或代码单位］的输入成本仅0.01美元。