7.3.4 为训练奖励模型准备排序数据