7.3.5 训练奖励模型