转载

OpenAI研究 事后经验回放

处理稀疏奖励是强化学习 (RL) 中最大的挑战之一。我们提出了一种称为 Hindsight Experience Replay 的新技术,它允许从稀疏和二元的奖励中进行样本有效学习,从而避免复杂的奖励工程。它可以与任意的 off-policy RL 算法相结合,可以看作是隐式课程的一种形式。

我们展示了我们用机械臂操纵物体的方法。特别是,我们对三种不同的任务进行了实验:推动、滑动和拾放,在每种情况下仅使用二元奖励来指示任务是否完成。我们的消融研究表明,Hindsight Experience Replay 是使在这些具有挑战性的环境中进行培训成为可能的关键因素。我们表明,我们在物理模拟上训练的策略可以部署在物理机器人上并成功完成任务。

详细论文