上QQ阅读APP看书,第一时间看更新
1.2 强化学习的复杂性
首先要注意的是,RL中的观察结果取决于智能体选择的动作,某种程度上可以说是动作导致的结果。如果智能体选择了无用的动作,观察结果不会告诉你做错了什么或如何选择动作才能改善结果(智能体只会得到负面的反馈)。如果智能体很固执并且不断犯错,那么这些观察结果会给出一个错误的印象,即没法获取更大的奖励了,但这种印象很可能是完全错误的。
用ML的术语来说,就是有非i.i.d.(independent and identically distributed,独立同分布)数据,而i.i.d.是大多数监督学习方法的前提。
第二个复杂的地方是智能体不仅需要利用它学到的知识,还要积极地探索环境,因为选择不同的动作很可能会明显地改善结果。但问题是太多的探索会严重地降低奖励(更不用说智能体实际上会忘记它之前学的知识了),所以需要找到这两种行为之间的平衡点。这种探索与利用的两难问题是RL中公开的基本问题之一。人们一直在面对这种选择——应该去一个知名餐厅就餐,还是去新开的新奇餐厅就餐?应该多久换一次工作?应该接触一下新领域还是继续留在现在的领域?这些问题尚无统一的答案。
第三个复杂的地方在于,选择动作后奖励可能会严重延迟。例如,在国际象棋中,游戏中途的一次强力落子就可以改变平衡。在学习过程中,我们需要发现这种因果关系,而在时间的流逝和不断选择的动作中辨别这种因果关系是很困难的。
然而,尽管存在这么多障碍和复杂性,RL在近年来已经取得了巨大的进步,并且在学术研究和实际应用领域中变得越来越活跃。
有兴趣了解更多吗?我们来深入研究某些细节,看看RL的形式和游戏规则。