6.2 基于参数探索的策略梯度算法中的采样技术