OpenAI研究 多目标强化学习:具有挑战性的机器人环境和研究要求
本技术报告的目的有两个。首先,它基于当前现有的机器人硬件引入了一套具有挑战性的连续控制任务(与 OpenAI Gym 集成)。这些任务包括使用 Fetch 机械臂进行推动、滑动和拾取和放置,以及使用 Shadow Dexterous Hand 进行手持对象操作。所有任务都有稀疏的二元奖励,并遵循多目标强化学习 (RL) 框架,在该框架中,代理被告知使用额外输入做什么。论文的第二部分提出了一组改进 RL 算法的具体研究思路,其中大部分与 Multi-Goal RL 和 Hindsight Experience Replay 相关。