本章将介绍强化学习相关理论背景知识和经典算法。首先介绍马尔可夫决策过程的基本构成及其动态过程;然后阐述现阶段强化学习的经典算法,包括基于值函数的策略学习算法和策略搜索算法,并对强化学习与其他深度学习方法结合取得的成果进行介绍;最后,对策略搜索方法及基于值函数的策略学习算法的优缺点进行分析总结。