OpenAI研究 策略梯度的方差减少与行动相关的因式分解基线
策略梯度方法在深度强化学习中取得了巨大成功,但存在梯度估计的高方差问题。高方差问题在长视野或高维动作空间的问题中尤为严重。为了缓解这个问题,我们推导出一个无偏差的动作依赖基线来减少方差,它充分利用了随机策略本身的结构形式,并且不对 MDP 做出任何额外的假设。我们通过理论分析和数值结果(包括对最佳状态依赖基线的次优性的分析)来证明和量化动作依赖基线的好处。结果是计算效率高的策略梯度算法,可扩展到高维控制问题,正如合成的 2000 维目标匹配任务所证明的那样。我们的实验结果表明,依赖于动作的基线允许在标准强化学习基准和高维手部操作和合成任务上更快地学习。最后,我们展示了在基线中包含额外信息以改进方差减少的一般想法可以扩展到部分观察和多代理任务。