1.4.2 多模态能力_大模型应用开发：动手做AI Agent-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

多模态能力则是指Agent能够处理和解释来自不同感官的信息，如视觉、听觉、触觉等（当然同时也能够以多种格式输出信息，如文本、图片、音频，甚至视频），如图1.16所示。例如，一个集成多模态模型的Agent可以通过观察一张图片，理解图片中的情感和社会动态，或者通过听到的声音理解语气和情绪。

图1.16　多模态能力

另外，多模态能力的一个重要方面是整合能力。Agent能够将来自不同感官的信息整合成一个统一的理解，这对于执行复杂任务至关重要。例如，自动驾驶Agent需要整合视觉数据（如道路标识和交通灯状态）、听觉数据（如特种车辆的警报声）和触觉数据（如车辆的速度和方向控制），以快速做出决策。

Agent的多模态能力还允许它们进行环境理解和场景构建。通过分析和合成来自各个感官的信息，Agent可以构建对环境的全面认知，从而应用于救灾、医疗诊断和客户服务等领域。