OpenAI研究 用于基于图像的机器人学习的非对称演员评论家
深度强化学习 (RL) 已在许多顺序决策制定领域中证明是一种强大的技术。然而,机器人技术给 RL 带来了许多挑战,最显着的是在物理系统上进行训练可能既昂贵又危险,这激发了人们对使用物理模拟器学习控制策略的浓厚兴趣。虽然最近的几项工作在将模拟训练的策略转移到现实世界方面显示出可喜的结果,但它们往往没有充分利用使用模拟器的优势。在这项工作中,我们利用模拟器中的完整状态可观察性来训练更好的策略,这些策略仅将部分观察结果(RGBD 图像)作为输入。我们通过使用演员-评论家训练算法来做到这一点,在该算法中,评论家在完整状态下接受训练,而演员(或策略)将渲染图像作为输入。我们通过一系列模拟任务实验证明,使用这些不对称输入可显着提高性能。最后,我们将此方法与域随机化相结合,并展示了针对拾取、推动和移动块等多项任务的真实机器人实验。我们在没有对任何真实世界数据进行训练的情况下实现了这种模拟到真实世界的转移。