上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第3章 策略梯度估计的分析与改进
策略梯度方法是一种有用的无模型强化学习(Model-free Reinforcement Learning)方法,但它容易受到梯度估计不稳定性的影响。在本章中,我们介绍基于参数探索的策略梯度方法,并分析和改进策略梯度方法的稳定性。我们首先证明了在弱假设下,基于参数探索的策略梯度算法(Policy Gradients with Parameter-based Exploration,PGPE)的梯度估计方差小于传统策略梯度算法。然后我们推导出 PGPE 算法的最优基线,从而进一步减小方差。我们还从理论上证明,在梯度估计方差方面,具有最优基线的 PGPE 算法比具有最优基线的 REINFORCE 算法更优。最后,通过实验验证了改进后的 PGPE 算法的有效性。