OpenAI研究 在线计划,离线学习:通过基于模型的控制进行高效学习和探索
我们提出了一个在线计划和离线学习 (POLO) 框架,用于设置具有内部模型的代理需要在世界上不断行动和学习的环境。我们的工作建立在基于局部模型的控制、全局价值函数学习和探索之间的协同关系之上。我们研究局部轨迹优化如何应对价值函数中的逼近误差,并稳定和加速价值函数学习。相反,我们还研究了近似值函数如何帮助缩小规划范围并允许在本地解决方案之外制定更好的政策。最后,我们还演示了如何使用轨迹优化来结合估计值函数近似中的不确定性来执行时间协调探索。这种探索对于快速稳定地学习价值函数至关重要。结合这些组件可以解决复杂的模拟控制任务,例如人形运动和灵巧的手持操作,相当于在现实世界中体验几分钟。