本章介绍了为什么RL很特殊以及它与监督学习和非监督学习之间的关系。然后介绍了RL的基本形式以及它们之间如何交互,之后介绍了MP、马尔可夫奖励过程以及MDP。这些知识将成为本书其余部分的基础。
下一章将从理论过渡到RL实践,包含了环境设置以及库的介绍,然后教你写下第一个智能体。