深度强化学习实践(原书第2版)
上QQ阅读APP看书,第一时间看更新

第11章 策略梯度:一种替代方法