统计策略搜索强化学习方法及应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 相关研究及背景知识

本章将介绍强化学习相关理论背景知识和经典算法。首先介绍马尔可夫决策过程的基本构成及其动态过程;然后阐述现阶段强化学习的经典算法,包括基于值函数的策略学习算法和策略搜索算法,并对强化学习与其他深度学习方法结合取得的成果进行介绍;最后,对策略搜索方法及基于值函数的策略学习算法的优缺点进行分析总结。