1.3.3 大模型就是Agent的大脑
大模型(或称大语言模型、大型语言模型,Large Language Model,LLM)的出现(见图1.8)标志着自主Agent的一大飞跃。大模型因令人印象深刻的通用推理能力而得到人们的大量关注。研究人员很快就意识到,这些大模型不仅仅是数据处理或自然语言处理领域的传统工具,它们更是推动Agent从静态执行者向动态决策者转变的关键。
图1.8 大模型如雨后春笋般出现[2]
研究人员马上开始利用这些大模型来构造Agent的大脑(即核心控制器)。基于大模型的Agent通过将大模型作为主要组件来扩展感知和行动空间,并通过策略如多模态感知和工具使用来制订具体的行动计划。
这些基于大模型的Agent通过反馈学习和执行新的动作,借助庞大的参数以及大规模的语料库进行预训练,从而得到世界知识(World Knowledge)。同时,研究人员通过思维链(Chain of Thought,CoT)、ReAct(Reasoning and Acting,推理并行动)和问题分解(Problem Decomposition)等逻辑框架,引导Agent展现出与符号Agent相媲美的推理和规划能力。这些Agent还能够通过与环境的互动,从反馈中学习并执行新的动作,获得交互能力。
咖哥发言
上述逻辑框架对Agent的设计非常重要,这里简要介绍其来源,后面还会详细剖析。
■ 思维链 : Wei等人在2022年的论文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”(《思维链提示引发大模型的推理能力》)[3]中提出思维链提示方法,通过引导大模型进行逐步推理,使其在解决复杂问题时表现出更强的推理能力。
■ ReAct : Yao等人在2022年的论文“ReAct: Synergizing Reasoning and Acting in Language Models”(《ReAct:在语言模型中协同推理与行动》)[4]中介绍了ReAct框架。该框架可以将推理和行动相结合,使语言模型能够根据推理结果采取适当的行动,从而更有效地完成任务。
■ 问题分解: Khot等人在2022年的论文“Decomposed Prompting: A Modular Approach for Solving Complex Tasks”(《分析提示:一种求解复杂任务的模块化方法》)[5]中提出问题分解提示方法。这种方法先将复杂问题分解为多个子问题,然后逐步求解,最后整合结果。这种方法可以帮助语言模型更好地处理复杂任务。
同时,预训练大模型具备少样本和零样本泛化的能力,在无须更新参数的情况下,可以在任务之间无缝转换。因此,基于大模型的Agent已开始被应用于现实世界的各种场景。
此外,基于具有自然语言理解和生成能力,大模型可以无缝交互,促进多个Agent之间的协作和竞争。研究表明,多个Agent在同一环境中共存并进行交互,可以促进复杂社会现象的形成(见图1.9),例如由斯坦福大学的研究团队推出的Agent自主构建的虚拟社会“西部世界小镇” [6]。
尽管大模型本质上是一种基于条件概率的数学模型,它们只是根据预设的情境和上下文来生成内容,以此模拟人类的语言和心理状态。但是,由于大模型能够通过在上下文预测的过程中生成内容,产生与人类语言相似的语句,创建基于特定上下文的与人类相似的表达方式,因此它们能够与智能Agent的目的性行为相适应,成为Agent的逻辑引擎。
图1.9 Agent形成的虚拟社会