2.4.2 源自生态学的概念——视觉的独一无二性
视觉感知在人工智能中有着特别的地位。它通常是所有人类感知中最强的部分,并形成最持久的记忆。视觉包括两种感觉,一种是反应式刺激(看),另一种是协商式感知,将环境中的物体和事件联系起来(观察)。在过去300年间各种各样的视觉理论被提出,Berkley的经验论(18世纪初)、格式塔六项原则(20世纪20年代)和Gregory的自上而下分析法(1970)是视觉方向更为传统的方法,这些方法中的视觉概念很大程度上依赖于已知的世界视觉呈现。因此,在传统观点中,视觉基于我们的环境、已知的呈现和记忆主动地构建我们对现实的感知,并对环境或主体的动态或多或少保持沉默。
因为视觉不能像感觉运动那样容易地被操纵,研究者已经考虑其他的方法来对其建模,而图像处理通常是一个支持工具,并被用于机器人研究。更简单、便宜的机器人通常采用非视觉传感器(如声呐和红外)来提供距离度量信息,在低层次任务和以导航为中心的行为中作为补充。
Gibson[121]和Marr[221]分别在20世纪80年代和20世纪90年代为将视觉作为一种生态现象建模提供了动力。视觉的功能是对视野内的事物、形状、空间和空间布局进行描述和呈现,并帮助获取更高层次的信息,如阅读路标。Gibson提出视觉不仅仅局限于这样的认知过程,还常常是协调运动的机制。Gibson的自下而上法是第一个在心理学上将运动与感知联系起来的方法,与传统的视觉理论非常不同。Gibson不支持行为主义与内部呈现,并且发展了光流的概念。同样,Marr也拒绝图像处理,并认为视觉是信息流而不是孤立的独立现象之间的相互联系。
Gibson的方法是基于信息流的,把环境和观察者看作“不可分的一对”。环境应该从生态方面(媒介、物质和表面等)去建模而不应该被建模为坐标系,因为动物感知的是前者而不是后者。视觉基于光流阵建模,它是由汇聚在一个给定点上的所有光线构成的。光流阵在每一点上都不一样,因此对于运动中的观察者来说,阵列在不断地变化,从而创建了一个光信息流场。由一个移动的观察者同时采样的光流阵中的变换指定了移动路径,而不是更传统的用于起点和终点等的坐标系。光流包含了关于表面布局和主体运动的信息。Gibson的模型阐明,主体所感知到的环境属性通常取决于观察者的物理和生理能力。例如:(1)可供人类坐的一定高度、大小和倾斜度的表面以及那些可供踩踏的不同高度、大小的表面;(2)可供捕捉的以一定速度移动的物体,其他则太快或者太慢等。值得注意的是,这些行动都是源于人类心理学的普遍反应,而不是从经验等学习到的。对运动的这些可能性的感知是必要的,它们也包含在光流阵中。开始移动就是收缩肌肉,以让前面的光流阵流出去,停止移动就是让这个流动停止。因此,智能体的内力是光流的函数[98]。
这里,Finternal是内力,flow是光流。利用这些控制法则,并将生态心理学扩展到机器人领域,在机器人与障碍物和人类在实时动态环境中进行交互方面,已经取得了可喜的成果。这种激进的视觉理论很明显缺乏对光流或者内力的量化,因为它依赖于情境和主体等。然而,这的确暗示了一些想法,即移动不是机械的牛顿力学,而是由感知驱动的,而感知是由心理和生态原因触发的。Duchon[99]在生物学方向扩展了Gibson的框架,为生态机器人总结了以下原则:
1.智能体与环境是“不可分的”,它们被视为一个系统。
2.智能体的行为产生于系统的动态。
3.根据感知和行动之间的关系,智能体的任务是将可用信息映射到控制,以实现系统的期望状态。
4.环境提供信息和暗示,以此来鼓励适应性行为。
5.因为智能体是环境的一部分,所以不需要先验的或实时的3D地图或模型。
Duchon利用以上原则演示了机器人导航与避障。
因为认知不是发生在智能体“内部”的事物,而是归结于其具身,主体在环境中的认知在适应性交互本身中被标记。因此,智能体经历的环境不仅受到其自身主体的限制,也被限定为通过智能体的自身活动而出现。经历的世界是由智能体的生理、感知运动回路以及环境之间的共同交互来描绘和确定的,如图2.6所示。这意味着,智能体自身是一个活的、有经验的结构,也是所有认知行动的情境[333],因此感知不会发生于主体或主体内部,而是一种行动。根据主动方法(Enactive Approach)[320],主体“带来了”自己的认知域,并有能力对自身进行一些控制,主要是为了健康和生存。因此,智能体让其主体与其环境直接交互。符号计算和信息模型不是认知的本质,外界事件也不能支配认知过程。认知是情境性的,它从不发生在抽象中,通过具身认知和情境认知的重叠来实现对行动的适应性协调和控制。最后,经验对于认知和大脑的理解是很重要的。
图2.6 主动作用是对环境的一个连续的探索过程,其中智能体的自我构成是其身份,它在与其环境的耦合过程中是守恒的(连续箭头)。耦合关系随自适应性变化而变化(虚线箭头)。摘自Froese and Di Paolo[113]
O'Regan和Noe[259,260]提出,视觉和视觉意识确实是一种与行动紧密关联的感觉运动活动,相比作为严格意义上的感觉运动对,更多的是作为一种探索性的感觉活动工作。这个探索过程是由作者所定义的“感觉运动偶发事件”的知识来调节的。这种方法强调视觉的现象性,而不是其更传统的表征性。“感觉运动偶发事件”可以被定义为根据感知者的行动而产生的感觉刺激的规律性。感知者的视觉让其知道形状、颜色、纹理、光线和行动过程,从而帮助其理解这个已知的世界。
例如,由于视觉可以被看作三维空间的二维投影的采样,二维的方形和三维的方块的顶部视图可能是一样的,但是朝着物体细微靠近或者远离,都会导致进入视网膜的光量变大或者缩小,这样眼睛感知到的就会不同。另一个例子是,由于反射的光量是由每一种颜色决定的,每个色块对应一个独一无二的偶然性,因此经常表达着心理意义,如红色的光反射值在0.4到0.5之间,反射了几乎一半的入射辐射,所以比其他颜色更能引起视网膜的兴奋。因此,红色是与兴奋、温暖等相关联的。
在智能体已经掌握或体验了很多次这些已知法则,即大脑如何编码视觉属性,以发展“感觉运动偶发事件”,并使探索性感觉(换句话说,就是对世界的主动探索)成为可能时,会产生视觉经验。正如我们所看到的,视觉与行动紧密相关,它可以说是主动作用最重要的感觉能力。
[1] Varela、Thompson和Rosch通过扩展Merleau-Ponty的身体现象学而提出了主动方法。