上QQ阅读APP看书，第一时间看更新

第6章　深度Q-network

在第5章中，大家已经熟悉了Bellman方程及其应用的实用方法价值迭代。这种方法能够大大提高在FrozenLake环境中的收敛速度，这种方法很有效，但其适用性可以更广吗？在本章中，我们将把同样的方法应用到更复杂的问题：Atari 2600平台上的街机游戏，这是强化学习（RL）研究社区的实际基准。

为了应对这个新的、更具挑战性的目标，在本章中，我们将：

在本章的最后，我们将重新实现V. Mnih等人在2013年发表的著名论文“Playing Atari with Deep Reinforcement Learning”中的DQN算法，该算法开启了RL开发的新纪元。

本周热推：