5.6 基于强化学习的商品规则学习与推理应用实践