更新时间:2021-08-18 17:40:31
封面
版权信息
译者序
前言
作者简介
审校者简介
第1章 什么是强化学习
1.1 机器学习分类
1.2 强化学习的复杂性
1.3 强化学习的形式
1.4 强化学习的理论基础
1.5 总结
第2章 OpenAI Gym
2.1 剖析智能体
2.2 硬件和软件要求
2.3 OpenAI Gym API
2.4 随机CartPole智能体
2.5 Gym的额外功能:包装器和监控器
2.6 总结
第3章 使用PyTorch进行深度学习
3.1 张量
3.2 梯度
3.3 NN构建块
3.4 自定义层
3.5 最终黏合剂:损失函数和优化器
3.6 使用TensorBoard进行监控
3.7 示例:将GAN应用于Atari图像
3.8 PyTorch Ignite
3.9 总结
第4章 交叉熵方法
4.1 RL方法的分类
4.2 交叉熵方法的实践
4.3 交叉熵方法在CartPole中的应用
4.4 交叉熵方法在FrozenLake中的应用
4.5 交叉熵方法的理论背景
4.6 总结
第5章 表格学习和Bellman方程
5.1 价值、状态和最优性
5.2 最佳Bellman方程
5.3 动作的价值
5.4 价值迭代法
5.5 价值迭代实践
5.6 Q-learning在FrozenLake中的应用
5.7 总结
第6章 深度Q-network
6.1 现实的价值迭代
6.2 表格Q-learning
6.3 深度Q-learning
6.4 DQN应用于Pong游戏
6.5 可以尝试的事情
6.6 总结
第7章 高级强化学习库
7.1 为什么使用强化学习库
7.2 PTAN库
7.3 PTAN版本的CartPole解决方案
7.4 其他强化学习库
7.5 总结
第8章 DQN扩展
8.1 基础DQN
8.2 N步DQN
8.3 Double DQN
8.4 噪声网络
8.5 带优先级的回放缓冲区
8.6 Dueling DQN
8.7 Categorical DQN
8.8 组合所有方法
8.9 总结
8.10 参考文献
第9章 加速强化学习训练的方法
9.1 为什么速度很重要
9.2 基线
9.3 PyTorch中的计算图
9.4 多个环境
9.5 在不同进程中分别交互和训练
9.6 调整包装器
9.7 基准测试总结
9.8 硬核CuLE
9.9 总结
9.10 参考文献
第10章 使用强化学习进行股票交易
10.1 交易
10.2 数据
10.3 问题陈述和关键决策
10.4 交易环境
10.5 模型
10.6 训练代码
10.7 结果
10.8 可以尝试的事情
10.9 总结
第11章 策略梯度:一种替代方法
11.1 价值与策略
11.2 REINFORCE方法
11.3 REINFORCE的问题
11.4 用于CartPole的策略梯度方法
11.5 用于Pong的策略梯度方法
11.6 总结
第12章 actor-critic方法
12.1 减小方差
12.2 CartPole的方差
12.3 actor-critic