机器意识:人工智能如何为机器人装上大脑
上QQ阅读APP看书,第一时间看更新

2.5 评估性能——人工智能与工程学

一个好的工程学设计往往能够让一项工作得到完美执行,而一个好的认知科学设计将致力于让智能体成为一个情境实体,融入生态系统的生态位。Pfeifer通过收集乒乓球的任务来阐述这一点。工程学的解决方案是高功率的真空吸尘器;而认知科学的解决方案是一个来回走动的移动机器人,捡起物体并根据已知的乒乓球图像来辨别它们。工程学的解决方案更快,但也会收集所需物体以外的东西;认知科学的解决方案会比较慢,但是会只收集乒乓球。时间标准不足以评估这两个方法哪个更好,因为真空吸尘器绝不会有移动机器人那样的适应性和灵活性。类似的比较还有在未知地形的地图上查找位置的任务,如图2.28所示。工程学解决方案是运用观测方法;而认知科学解决方案则是即时定位与地图构建(Simultaneous Localisation and Mapping,SLAM)。在SLAM中,机器人在给定的地形中来回走动多次,逐渐形成一个地图。工程学方案会更快,但要求知道一些角度和距离;而认知科学方案会比较慢,但没有这些要求。Pfeifer指出,一个特定方案的快捷性并不足以说明它的优点。例如,SLAM可以用于人类无法接近的地形,如观测行星体和其他危险的、困难的地形,这些都难以通过观测方法确定。而对于陆地、水域和空中以及一些角度和距离可以获得的情况,SLAM就难以有这种灵活性。因此,以解决方案能实现“多快”为基准并不足以彰显这个方案的优势。

图2.28 工程学解决方案与认知科学解决方案。为给定地形绘制地图,工程学方法(上部)用三角测量观测高度和距离。认知科学(下部)则会应用一个移动主体进行即时定位与地图构建(SLAM),从而绘制地图

研究人员已经采取了各种不同的方法来评估自主AI智能体的性能,但是在确定一个特定的方法上缺乏共识。因为AI智能体是情境性的,它们与传统的反馈控制系统有很大的不同。在传统系统中,性能通常由控制变量的平均偏差与预测值的商、控制器对噪声的敏感性、控制器动态的稳定性和可接受误差范围内的可重复性来衡量。然而在情境智能体中,理想的机器人行为的获得是智能体-环境互动的涌现特性。因此,需要有与传统类型显著不同的方法。

1.传统推算思想:让机器人大量重复给定任务,用成功的百分比衡量性能。例如,一个自动机器人服务员可以通过它正确服务没有出错的次数来评估。一个可评估的高百分比可以证实性能的一致性。明显的缺点是,这个机器人服务员在执行服务以外的任务时,需要适合任务的另一套基准。同样作为缺点,这种方法不能覆盖所有的任务类型(未知地形、动态任务、有效的人机交互和机器人间交互以及硬件故障)。然而,由于这些方法简单,它们仍然受到研究人员的喜爱,大多数研究论文会采用这种评估方法。

2.将实际性能与仿真相关联[163,371]。虽然这个范式是矛盾的,因为它意味着将一个情境现象与一个非情境的仿真过程联系起来,但是即使这样,这个方法仍然是研究团体的另一个宠儿。目前的软件仿真方法非常复杂,可以模拟真实的环境,通常有一个物理引擎,并产生近乎真实的性能。但是,仿真仍然有它的缺点,因为它不能为摩擦、磁相互作用、磨损、断裂、水分影响、二阶效应等提供现实的物理条件。还有,这会陷入基准、性能、计算能力和仿真运行的机器硬件方面(即RAM、数据速率、CPU功率、计时器等)的影响上。而且,跟前面的方法一样,这种方法也不能处理未知地形和动态任务。

社会机器人、多机器人组、群体机器人等更容易进行评估,因为这些主体被其实际工作打上了标签,与环境密切相关,而且不是任意的。因此,评估方法分别专注于人机交互和群体行为质量上。