2.5.2 基于规则的奖励模型