统计策略搜索强化学习方法及应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 强化学习分支

针对强化学习中存在的各种问题,研究人员在提出一系列高效解决算法的同时,也对强化学习的研究领域进行扩展,衍生出分层强化学习、多智能体强化学习、逆强化学习等方法,并借鉴其他机器学习方法的优势解决强化学习中难解决的问题,如将元学习和强化学习结合的元强化学习,将迁移学习和强化学习结合的迁移强化学习和使用生成对抗网络完成强化学习任务等方法,本节将详细介绍上述各子领域。

分层强化学习(Hierarchical Reinforcement Learning,HRL)是强化学习领域的一个分支,是将最终目标分解为多个子任务学习层次化策略,并通过组合多个子任务的策略形成有效的全局策略的方法[53]。子任务分解有两种方法:①所有的子问题都是共同解决被分解的任务(Share Tasks);②不断把前一个子问题的结果加入下一个子问题解决方案中(Reuse Tasks)。分层强化学习方法大致可分为四种:基于选项的、基于分层抽象机的、基于 MaxQ函数分解的和基于端到端的分层强化学习[54]。虽然分层强化学习能够加快问题求解速度,但在处理大规模状态空间任务时,智能体状态空间维度的增加会导致学习所需参数数量呈指数增长,造成维度灾难(Curse of Dimensionality),消耗大量的计算和存储资源。

多智能体强化学习(Multi-agent Reinforcement Learning)由多个小的且彼此之间互相联系协调的系统组成。与分布式人工智能方法相似,多智能体强化学习同样具有强大的自主性、分布性及协调性,是多智能体系统领域中的重要研究分支之一[55]。在面对一些真实场景下的复杂决策问题时,单智能体系统的决策能力往往不能单独完成任务,例如,在拥有多玩家的 Atari2600游戏中,要求多个决策者之间存在相互合作或竞争的关系。因此,在许多特定的情形下,需要将复杂且规模较大的任务分解为多个智能体之间相互合作、通信及竞争的系统。根据智能体间的互动类型及任务类型,多个智能体间的关系可以分为完全合作、完全竞争和混合型,多数情况下采取为每个智能体单独分配训练机制的学习方式[56][57]。尽管多智能体系统已经取得了不错的成果,但其在大型机器人系统中表现不够成熟,故可扩展性是多智能体系统未来的重要研究方向。另外,目前大部分多智能体强化学习系统往往假定是满足 MDP 过程的,对于现实中存在的许多不满足 MDP 过程的任务,此时智能体的行为是不可预测的。因此,在不满足马尔可夫性质的情况下进行多智能体强化学习任务还需要进一步的研究与探索[57]

模仿学习(Imitation Learning)又称为示教学习,主要解决智能体无法从环境中得到明确奖励的任务。该方法能快速得到环境反馈且其模型收敛迅速,又具备推理能力[58],已经广泛应用于机器视觉[59]和机器人控制领域中[60]。模仿学习的主要思想是从示教者提供的范例中学习,示教者又称为专家,所提供的范例即专家知识,该方法包括行为克隆方法(Behavior Cloning)和逆强化学习方法(Inverse Reinforcement Learning,IRL)。行为克隆方法与监督学习类似,是直接模仿人类行为的方法,此方法无须求解奖励函数,但当模型训练收敛后,对于未在训练集中出现的状态,行为克隆方法将无法正确采取相应动作,产生复合误差(Compounding Errors),此时需要采用数据增广(Data Augmentation)方法缓解误差随时间越来越大的问题。另外,行为克隆方法只是对专家知识的简单复制,并不能实现对数据的特征提取,会增加计算量。逆强化学习方法是应用相对广泛的方法,其试图从专家知识学习中得到奖励函数。顾名思义,逆强化学习方法是强化学习方法的逆过程,具体地,强化学习是已知当前奖励函数和现有环境使用一定方法求解最优动作选择策略的方法,而逆强化学习是当前仅有专家知识数据而奖励函数未知,需要使用一定方法在反推得到奖励函数后,再使用一般强化学习方法寻找最优策略的方法,其中通常使用基于最大间隔的奖励函数、基于确定基函数组合的奖励函数和基于参数化的奖励函数进行奖励函数的求解[61]。对于此类方法,对专家知识所提供数据的处理尤为重要,但是提供大量专家知识会花费大量精力,在一些复杂且困难的大规模任务中,无法提供相关行为数据[62]

迁移学习(Transfer Learning)是把已训练好的模型参数迁移到新的模型中,帮助新模型快速适应的方法[63]。在强化学习中,无论是基于值函数的策略学习算法还是策略搜索算法,当任务改变时就需要重新对智能体进行训练,而重新训练的代价巨大。因此,研究人员在强化学习中引入迁移学习并展开研究,将知识从原任务迁移到目标任务中以改善性能,提出迁移强化学习(Transfer Reinforcement Learning)。Wang 等人总结出迁移强化学习分为两大类:行为上的迁移和知识上的迁移[64]。把原始任务中性能良好的策略迁移到全新任务中的做法,在一定程度上使得智能体适应能力变强,还能提高数据利用率,降低模型训练对数据量的要求。目前,迁移强化学习已广泛应用在对话系统中。

元学习(Meta Learning)的目标是学会学习,与终身学习(Long Life Learning,LLL)使用同一个模型完成多个任务的思想不同,元学习完成不同任务需要不同的模型。元学习试图开发出可以根据性能信号做出响应,从而对结构基础层次以及参数空间进行修改的算法,这些算法在新环境中可以利用之前积累的经验,但是该方法存在鲁棒性不强、难训练的问题[65]。元学习可以通过与深度强化学习相结合来解决自身样本复杂性高的问题,深度元强化学习是近期深度学习技术的一个令人瞩目的新兴领域,其利用元学习解决了深度学习需要大数据集的问题,以及强化学习收敛慢的问题。深度元强化学习中智能体可以通过充分利用在其他任务中学习积累得到的经验数据,并在一定采样额度下适应并完成当前任务。同时,深度元强化学习还可以适用于环境不断改变的应用场景,具有巨大的应用前景。然而,目前大部分深度元强化学习算法自身训练需要使用大量数据学习,样本效率极低。

尽管强化学习延伸出很多分支,并能够借助其他机器学习方法克服其自身存在的许多问题,但相比其他机器学习方法,强化学习落地困难,真实环境搭建代价高昂,因此其训练学习过程通常借助模拟器完成。当前,国内外主要模拟器有模拟机器人、生物力学、图形和动画等领域的物理引擎 mujoco[66];OpenAI 团队的 gym 环境;DeepMind 团队的 Spriteworld、OpenSpiel、DeepMind Lab;暴雪公司和 DeepMind 合作出品的 AI 对战强化学习平台pysc2;跨平台的赛车游戏模拟器 TORCS等。