转载

OpenAI研究 一次性模仿学习

模仿学习已普遍应用于单独解决不同的任务。这通常需要仔细的特征工程或大量样本。这远非我们所期望的:理想情况下,机器人应该能够从任何给定任务的极少演示中学习,并立即泛化到同一任务的新情况,而不需要特定于任务的工程。在本文中,我们提出了一种元学习框架来实现这种能力,我们称之为一次性模仿学习。

具体来说,我们考虑有大量任务的设置,每个任务都有很多实例。例如,一个任务可能是将桌子上的所有方块堆叠成一个塔,另一个任务可能是将桌子上的所有方块堆叠成两个方块的塔,等等。在每种情况下,任务的不同实例将包括具有不同初始状态的不同组块。在训练时,我们的算法会针对所有任务的一个子集呈现成对的演示。训练一个神经网络,将一个演示和当前状态(最初是这对演示的初始状态)作为输入,并输出一个动作,目标是状态和动作的结果序列尽可能匹配可能与第二次示范。在测试时,展示了一个新任务的单个实例,神经网络有望在这个新任务的新实例上表现良好。软注意力的使用允许模型泛化到训练数据中看不到的条件和任务。我们预计,通过在更多种类的任务和设置上训练该模型,我们将获得一个通用系统,该系统可以将任何演示转化为可以完成大量任务的强大策略。

此 https URL提供的视频  。

详细论文