11.3 深度强化学习网络的变种模型