更新时间:2021-10-29 12:05:40
封面
版权信息
内容简介
第1章 强化学习概述
1.1 机器学习中的强化学习
1.2 智能控制中的强化学习
1.3 强化学习分支
1.4 本书贡献
1.5 本书结构
参考文献
第2章 相关研究及背景知识
2.1 马尔可夫决策过程
2.2 基于值函数的策略学习算法
2.3 策略搜索算法
2.4 本章小结
第3章 策略梯度估计的分析与改进
3.1 研究背景
3.2 基于参数探索的策略梯度算法(PGPE算法)
3.3 梯度估计方差分析
3.4 基于最优基线的算法改进及分析
3.5 实验结果
3.6 总结与讨论
第4章 基于重要性采样的参数探索策略梯度算法
4.1 研究背景
4.2 异策略场景下的PGPE算法
4.3 实验结果
4.4 总结和讨论
第5章 方差正则化策略梯度算法
5.1 研究背景
5.2 正则化策略梯度算法
5.3 实验结果
5.4 总结和讨论
第6章 基于参数探索的策略梯度算法的采样技术
6.1 研究背景
6.2 基于参数探索的策略梯度算法中的采样技术
6.3 实验结果
6.4 本章总结
第7章 基于样本有效重用的人形机器人的运动技能学习
7.1 研究背景:真实环境下的运动技能学习
7.2 运动技能学习框架
7.3 有效重用历史经验
7.4 虚拟环境中的车杆摆动任务
7.5 篮球射击任务
7.6 讨论与结论
第8章 基于逆强化学习的艺术风格学习及水墨画渲染
8.1 研究背景
8.2 基于强化学习的笔刷智能体建模
8.3 离线艺术风格学习阶段
8.4 A4系统用户界面
8.5 实验与结果
8.6 本章小结
彩插