深度强化学习实践(原书第2版)
上QQ阅读APP看书,第一时间看更新

第5章 表格学习和Bellman方程

通过上一章,大家熟悉了第一个强化学习(RL)算法(交叉熵方法)以及它的优缺点。后面的部分将介绍另一组更加灵活且更实用的方法:Q-learning。本章将介绍这些方法共同需要的背景。

我们还将重新审视FrozenLake环境,探索新概念如何适用于此环境,并帮助我们解决其不确定性的问题。

本章将:

  • 查看状态的价值和动作的价值,并学习如何在简单的情况下进行计算。
  • 讨论Bellman方程,以及在知道价值的情况下如何建立最佳策略。
  • 讨论价值迭代方法,然后在FrozenLake环境中进行尝试。
  • 对Q-learning方法做同样的事情。

尽管本章中的环境很简单,但它为功能更强大且更通用的深度Q-learning方法建立了必要的基础。