深度强化学习算法与实践:基于PyTorch的实现
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.1 基于模型的(Model-Based)和无模型的(Model-Free)

在强化学习的过程中有时候需要对环境进行预测,这种预测往往在环境比较复杂,以及智能体和环境作用消耗的代价比较大的时候非常有用。典型的例子比如AlphaGo这个围棋算法。对于算法来说,执行到围棋棋局分出胜负为止往往需要耗费比较大的代价,这时候就可以使用一个模型对环境进行估计,比如估计局势究竟是哪一方占优等。通过建立环境的模型,智能体也可以有效地对自身的路径进行规划,以取得更高的奖励。需要注意的是,这里的模型指的是对环境建立一个模型来预测环境的变化,包括环境的奖励、环境自身状态的变化等。和前面介绍的使用模型来估计价值函数不同,这个估计是针对智能体自身的估计,而不是对环境的估计,这里需要区分开来。如果没有对环境的建模过程,我们称之为无模型的算法,本书主要介绍的是无模型的算法。