2.4.3 源自心理学的概念——行为主义
行为主义是心理学的一个分支,研究个体的环境和随即产生的行为之间的关系。这基本上是一个“黑箱”方法,与大脑功能不相关。行为主义在20世纪20年代到20世纪50年代间很受欢迎。早期的先驱是巴甫洛夫、Twitmyer和Thorndike,他们各自的研究都是独立的。巴甫洛夫在19世纪90年代的实验聚焦于狗的消化,如幽默版的图2.7所示,狗会先听到节拍器的声音,然后立即被提供食物。经过几次这样的试验,观察到狗听到节拍器的声音就会开始分泌唾液。节拍器拥有了刺激唾液分泌的性质。巴甫洛夫的发现证实了之前的中性刺激(节拍器),在多次试验后变成了刺激唾液分泌的条件刺激。Twitmyer也记录过相似的结果。这种将生物刺激与先前的中性刺激(如声音或光线等)配对的动物行为改变被称为经典条件反射或巴甫洛夫条件反射。
图2.7 巴甫洛夫的狗。行为主义最早的实验之一是由巴甫洛夫进行的,在这个实验中,他就条件反射理论研究了狗的消化。(c)2003 Mark Stivers www.stiverscartoons.com,授权使用
在20世纪30年代,斯金纳提出了操作性条件反射,它依赖于通过其结果来改变行为,要么强化,要么惩罚,而不是通过操纵巴甫洛夫条件反射。代表性的基于老鼠的斯金纳箱实验(如图2.8所示)展示了受试老鼠在按了某个特定控制杆后,会得到积极强化(如提供食物),在按了某个不同的控制杆或按钮后,会得到消极惩罚(如不提供食物)或积极惩罚(如给受试老鼠轻微电击或喷冷水)。随着时间推移,老鼠会更频繁地按下食物控制杆而避开产生惩罚的控制杆或者按钮。随着不断将刺激作为一种操作反应的方式,刺激会成为对受试者的控制手段。操作性条件反射的5个类型如图2.9所示。
图2.8 斯金纳箱。研究操作性条件反射和经典条件反射的实验工具。这个箱子是用玻璃围起来的,里面有一个按钮或者按键或者控制杆,动物按下去后分别会得到特定的刺激回应(如光或声音信号),然后投放食物或水作为强化
图2.9 操作性条件反射。强化和惩罚是斯金纳方法的控制机制
强化可以分为两个方面:在积极强化中,回应跟随着奖励,如在按控制杆时提供食物;在消极强化中,回应跟随着一种不愉快的影响,如让受试老鼠受到噪声的骚扰,当它按下一个控制杆或者按钮时则可以关掉。惩罚也有两种模式:在积极惩罚中,回应会跟随着一些不悦的体验;在消极惩罚中,回应会移除一些愉悦的体验。两种情境都不鼓励回应。区分惩罚与消极强化常常不是那么容易。通常,惩罚以调节恐惧为特征,是主动的回应,而惩罚是抑制性的,在很长时间内,回应只在惩罚解除时出现一次。在消退中,之前强化的回应不再被强化(无论是积极强化还是消极强化),由于不再经历期望的结果,回应会削弱。斯金纳相信操作性条件反射能被用来设计有机体复杂而丰富的行为。
经典条件反射与操作性条件反射的区别在于前者支持反射行为,而后者则通过操纵刺激来控制主体的行为。行为主义直接影响了基于智能体的机器人,结论是:
1.行为主义主要与可观察的行为相关,不同于像思考和情感这样的内在事件。可观察的(即外在的)行为可以被客观而科学地衡量。内在事件(如思考)应该通过行为主义的术语来解释,或者干脆消除。
2.人没有自由意志,一个人的环境决定其行为。
3.在出生时,我们的大脑是一块白板,没有记忆也没有经验。
4.人类的学习与其他动物的学习几乎没有区别。因此,研究不仅可以在人身上进行,也可以在动物身上进行。
5.行为是对刺激的反应结果。因此,所有行为(无论多复杂)都可以被简化为简单的刺激反应模型。斯金纳的刺激-反应(SR)理论是一个强化正向行为同时消除不理想行为的努力。
6.所有的行为都是从环境中学习到的。新的行为是通过经典条件反射或操作性条件反射学习到的。