转载

OpenAI研究 具有动态随机化的机器人控制的模拟到真实转移

模拟对于训练代理来说是很有吸引力的环境,因为它们提供了丰富的数据源并减轻了训练过程中的某些安全问题。但是代理在模拟中发展的行为通常是特定于模拟器的特性的。由于建模错误,在模拟中成功的策略可能无法转移到现实世界中。在本文中,我们演示了一种弥合这种“现实差距”的简单方法。通过在训练期间随机化模拟器的动态,我们能够制定能够适应非常不同的动态的策略,包括那些与训练策略所依据的动态显着不同的策略。这种适应性使策略能够推广到现实世界的动态,而无需对物理系统进行任何培训。我们的方法在使用机械臂的物体推动任务上进行了演示。尽管只接受了模拟训练,但我们的策略在部署在真实机器人上时能够保持相似的性能水平,可靠地将物体从随机初始配置移动到所需位置。我们探讨了各种设计决策的影响,并表明由此产生的策略对重大校准误差具有鲁棒性。从随机初始配置可靠地将对象移动到所需位置。我们探讨了各种设计决策的影响,并表明由此产生的策略对重大校准误差具有鲁棒性。从随机初始配置可靠地将对象移动到所需位置。我们探讨了各种设计决策的影响,并表明由此产生的策略对重大校准误差具有鲁棒性。

详细论文