恭喜你已经朝着理解现代、最新的RL方法又迈出了一步!本章介绍了RL中广泛使用的一些非常重要的概念:状态价值、动作价值以及各种形式的Bellman方程。
还介绍了价值迭代方法,它是Q-learning领域中非常重要的组成部分。最后,介绍了价值迭代如何提升FrozenLake解决方案。
下一章将探讨深度Q-network,它于2013年在许多Atari 2600游戏中击败人类,从而开始了深度RL的革命。