深度强化学习实践(原书第2版)
上QQ阅读APP看书,第一时间看更新

第8章 DQN扩展

自DeepMind于2015年发布了深度Q-network(Deep Q-network,DQN)模型的论文(https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning)以来,已经有许多对基础架构的改进和调整被提出了,极大地提高了DeepMind的基础DQN的收敛性、稳定性和采样效率。本章我们会深入地研究其中一些思想。

非常方便的是,DeepMind在2017年10月发表了一篇名为“Rainbow: Combining Improvements in Deep Reinforcement Learning”的论文[1],其中介绍了DQN的七个最重要的改进。其中有些是在2015年发明的,还有些则是最近才发明的。在论文中,仅通过组合这七个方法,就在Atari游戏套件中取得了最先进的结果。本章将介绍所有这些方法,分析它们背后的理念,以及如何实现它们,并与基础DQN进行性能比较。最后,组合所有的方法并校验其性能。

之后将介绍的DQN扩展包括:

  • N步DQN:如何通过简单展开Bellman方程来提升收敛速度和稳定性,以及为什么它不是最终方案。
  • Double DQN:如何处理DQN对动作价值评估过高的问题。
  • 噪声网络:如何通过增加网络权重的噪声来提升探索的效率。
  • 带优先级的回放缓冲区:为什么对经验进行均匀采样不是训练的最佳方法。
  • Dueling DQN:如何通过使网络结构更接近正在解决的问题来加速收敛。
  • Categorical DQN:如何跳脱动作的单个期待价值,使用完整的分布。