上QQ阅读APP看书,第一时间看更新
6.6 总结
本章介绍了许多新的复杂的内容。介绍了在具有较大观察空间的复杂环境中进行价值迭代的局限性,并且讨论了如何通过Q-learning来克服它们。在FrozenLake环境中验证了Q-learning算法,讨论了用NN进行Q值的近似以及由此近似所带来的额外复杂性。
还介绍了DQN改善其训练稳定性和收敛性的几种技巧,例如经验回放缓冲区、目标网络和帧堆叠。最后,将这些扩展组合到DQN的实现中,解决了Atari游戏中的Pong环境。
下一章将研究自2015年以来研究人员发现的一系列提高DQN收敛性和质量的技巧,这些技巧(组合)可以在54款(包括新增加的)Atari游戏中的大多数上产生很好的效果。该系列于2017年发布,我们将分析并重新实现所有技巧。