深度强化学习实践(原书第2版)
上QQ阅读APP看书,第一时间看更新

第6章 深度Q-network

在第5章中,大家已经熟悉了Bellman方程及其应用的实用方法价值迭代。这种方法能够大大提高在FrozenLake环境中的收敛速度,这种方法很有效,但其适用性可以更广吗?在本章中,我们将把同样的方法应用到更复杂的问题:Atari 2600平台上的街机游戏,这是强化学习(RL)研究社区的实际基准。

为了应对这个新的、更具挑战性的目标,在本章中,我们将:

  • 讨论价值迭代方法的问题,并考虑其名为Q-learning的变体。
  • 将Q-learning应用于所谓的网格世界环境,称为表格Q-learning
  • 结合神经网络(Neural Network, NN)讨论Q-learning。这个组合的名称为深度Q-network(DQN)

在本章的最后,我们将重新实现V. Mnih等人在2013年发表的著名论文“Playing Atari with Deep Reinforcement Learning”中的DQN算法,该算法开启了RL开发的新纪元。