大模型应用开发:动手做AI Agent
上QQ阅读APP看书,第一时间看更新

1.5.2 工具使用能力

Agent的工具使用能力包含两层含义:一层是代码层面的工具调用;另一层是物理层面的交互。

在代码层面,Agent可以通过软件接口与各种系统交互。Agent可以调用外部API(Application Programming Interface,应用程序接口)来执行各种任务,如获取数据、发送指令或处理信息(见图1.17)。例如,天气预报Agent可能会调用天气服务的API来获取最新的天气信息。Agent也可以通过软件工具自动处理复杂的任务,例如使用脚本语言自动化办公软件的操作,或控制数据分析工具来处理和分析大量数据。更高级的Agent可以进行系统级的操作,例如文件系统的管理、操作系统层面的任务调度等。

图1.17 会使用工具的Agent

而物理层面的交互通常涉及机器人或其他硬件设备。这些设备被编程来响应Agent的指令,执行具体的物理操作。机器人或自动化设备可以执行物理任务,如移动物体、组装零件等,可以使用传感器获取环境数据(如温度、位置、图像等),并根据这些数据做出相应的物理响应。Agent也可以远程控制无人机、探测车等设备,执行探索、监控或其他任务。

在物理层面,Agent的能力扩展到与现实世界的直接交互,这要求其具备更高级的硬件控制能力和对物理环境的理解。从这里开始,我们进入了具身智能(Embodied Intelligence)的范畴。