1.5 本书结构
本书共包含三部分主要内容:第一部分介绍本书研究背景及相关理论知识,具体内容详见第1章和第2章;第二部分是理论算法研究,我们针对不同场景,提出具体的策略搜索算法,分析算法中估计量和学习参数的统计特性,并对算法进行应用示例展示及定量比较,具体内容在第3~6章进行讲解。第三部分是应用研究,我们结合强化学习前沿技术将本书所提出的策略搜索算法应用到智能机器人控制及数字艺术渲染领域,具体内容详见第7章和第8章。本书内容共分为8章,具体结构安排如下。
第1章为本书的前言。我们首先介绍有关强化学习背景及研究意义,重点阐述强化学习在机器学习及智能控制领域中的应用,并说明研究意义和优势;其次,分析强化学习领域的分支;最后给出本书的主要贡献和总体结构安排。
在第2章中,我们给出了强化学习问题的数学公式,并回顾了一些现有的经典算法。强化学习问题在2.1节中得到了形式化描述。然后,我们回顾了强化学习的两种基本范式;在2.2节中我们回顾了策略迭代中的经典方法,其中我们给出了值函数的定义、策略迭代方法的框架,以及一种经典的策略迭代算法,即最小二乘策略迭代;在2.3节中,我们回顾了传统策略梯度算法(PEINFORCE 算法)、自然策略梯度方法、基于 EM 的策略搜索方法以及基于策略梯度的深度强化学习方法;2.4节给出了本章小结。
在第3章中,我们对策略梯度法的稳定性进行了分析和改进。3.1节描述了研究动机和背景知识。3.2节介绍基于参数探索的策略梯度算法(PGPE 算法)。3.3节研究了 REINFORCE算法和 PGPE算法的理论性能。更具体地说,我们从理论上证明在较弱的条件下,PGPE 算法比 REINFORCE 算法提供了更稳定的梯度估计。在3.4节中,我们通过推导最优基线进一步提高了 PGPE 算法的性能,并从梯度估计的方差方面对具有最优基线的 PGPE 算法进行了理论分析。随后,我们在3.5节通过实验证明了改进的 PGPE 算法的有效性。最后,3.6节给出了本章小结,并对相关的论点进行讨论。
在第4章中,我们提出了一种新的具有有效样本重用的策略梯度算法(IW-PGPE算法)。第4.1节给出了动机和背景知识。在4.2节中,我们系统地将 PGPE 算法与重要采样和最优常数基线相结合,给出了一种高效实用的算法,并从理论上证明了引入最优常数基线可以在某些条件下缓解重要权重的方差较大的问题。随后,在4.3节中,我们通过大量实验结果验证了所提方法的有效性,此外,我们在4.3.3节通过人形机器人的虚拟仿真实验再次证实了该方法在高维问题上的有效性。最后,我们在4.4节对本章进行总结。
在第5章中,我们提出正则化策略梯度算法(R-PGPE算法),通过直接使用策略梯度的方差作为正则化项来降低梯度估计的方差。我们在5.1节介绍研究背景。第5.2节描述正则化策略梯度算法,其中首先在5.2.1节定义框架下的目标函数,然后在5.2.2节对目标函数的梯度进行推导。5.3节通过示例验证所提算法有效性。最后,在5.4节总结本章内容。
在第6章中,我们讨论基于参数探索的策略梯度算法的采样技术。6.1节介绍研究动机。6.2节首先回顾 PGPE算法中的基线及最优基线采样,再给出具有对称采样样本的 PGPE 算法,并将其继续拓展到超对称采样样本算法。6.3节通过示例结果验证对称采样技术的有效性。最后,在6.4节对本章进行总结。
最后,第7章和第8章给出了本书所讨论的策略搜索算法在智能控制领域的应用研究。首先,第7章将我们提出的递归 IW-PGPE 算法应用于真实的人形机器人 CB-i,并成功实现了两个具有挑战性的控制任务;其次,第8章通过正则化参数探索策略梯度算法(R-PGPE 算法)与逆强化学习的结合,捕获艺术家的绘画风格,得到笔触生成策略,动态地实现了个性风格的水墨画艺术风格转化。