上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.4 本章小结
基于值函数的策略学习算法与策略搜索算法是无模型强化学习领域的两大范式。本章简要介绍了基于值函数的策略学习算法,其中包括值函数的基本概念、策略迭代、值迭代及迭代框架,以及经典的 Q-learning 和基于最小二乘法的策略迭代算法;策略搜索算法中介绍了传统策略梯度算法、自然策略梯度方法及期望最大化的策略搜索方法。
在后续章节中,我们将基于本章介绍的基本概念及模型展开对策略搜索算法的详细分析及介绍,如第3章关于策略梯度算法的改进方法——基于参数探索的策略梯度算法及其最优基线[28][29],第4章关于样本重复使用的策略梯度算法[30],第5章关于正则化策略梯度算法[31],第6章基于参数探索的策略梯度算法的采样技术[32]。