大模型应用开发:动手做AI Agent
上QQ阅读APP看书,第一时间看更新

1.3.2 大模型出现之前的Agent

在深度神经网络和大模型出现之前,没有任何一种技术能够赋予Agent一个复杂程度可以与人类大脑相匹敌的“智脑”。而大模型直接改变了人们对Agent的看法和期待。这些大模型不仅仅是语言处理工具,它们也是对人类智能的一种深层模仿和扩展,提供了前所未有的能力,为Agent的发展打开了新天地。

在大模型出现之前,已经出现了符号Agent、反应型Agent、基于强化学习的Agent与具有迁移学习和元学习能力的Agent等[1]。下面分别介绍。

符号Agent。在人工智能研究的早期阶段,占主导地位的方法是符号人工智能,这种方法采用逻辑规则和符号表示来封装知识并促进推理过程。这些Agent拥有显式和可解释的推理框架,基于符号性质,它们展现出高度的表达能力。使用这种方法的经典例子是基于知识库构建的专家系统。然而,众所周知,虽然符号Agent的表达能力非常强,但无法解决超出它的知识库记录的任何问题。因此,它们在处理不确定性和大规模现实世界问题时有局限,而且当知识库增加时,它们对计算资源的消耗也会增加。

反应型Agent。与符号Agent不同,反应型Agent不使用复杂的符号推理框架,也不因其符号性质而表现出高度的表达能力。相反,它们主要侧重于Agent与环境之间的互动,强调快速和实时响应。这些Agent主要基于感知-动作循环,高效地感知环境,并做出反应。然而,反应型Agent也存在局限性。它们通常需要较少的计算资源,能够更快地响应,但缺乏复杂的高级决策制定和规划的能力。

基于强化学习的Agent。随着计算能力和数据可用性的提高,以及对Agent与其环境之间相互作用模拟的兴趣日益高涨,研究人员开始利用强化学习方法训练Agent,以解决更具挑战性和复杂性的任务。强化学习领域的主要问题是如何使Agent通过与环境的互动来学习,使它们能够实现特定任务中的最大累积回报。早期基于强化学习的Agent主要基于策略搜索和价值函数优化等基本技术,如Q-Learning和SARSA。随着深度学习的崛起,深度神经网络与强化学习的结合,即深度强化学习,使Agent能够从高维输入中学习复杂策略。这使得我们看到像AlphaGo这样的重大成就。这种方法的优势在于它能够使Agent自主地在未知环境中学习,无须显式人为干预,这为其在游戏、机器人控制等领域中的广泛应用提供了可能。尽管如此,在复杂的现实世界中,强化学习仍面临训练时间长、样本效率低和稳定性差等诸多挑战。

具有迁移学习和元学习能力的Agent。为了解决基于强化学习的Agent在新任务上的学习要求大量的样本和长时间的训练,并且缺乏泛化能力的问题,研究人员引入迁移学习来减轻新任务训练的负担,促进跨不同任务的知识共享和迁移,从而提高学习效率和泛化能力。元学习专注学习如何学习,能够迅速推断出针对新任务的最优策略。这样的Agent在面对新任务时,能够迅速调整学习策略,利用已获得的一般知识和策略,因而能够减少对大量样本的依赖。然而,显著的样本差异可能会削弱迁移学习的效果。此外,大量的预训练和对大样本量的需求可能使得元学习难以建立一个通用的学习策略。

所以,尽管AI研究人员一直在努力尝试,也的确取得了很大突破(AlphaGo战胜世界围棋冠军),但是没有大模型指挥的Agent无法在较为通用的应用领域发挥真正的作用,例如,无障碍地和人交流,或者根据清晰的人类指令在较复杂的情景中完成一个哪怕较为简单的任务——上一代的Agent无法做到这些事情。