转载

OpenAI研究 进化策略作为强化学习的可扩展替代方案

我们发现进化策略 (ES) 是一种几十年来为人所知的优化技术,在现代 RL 基准(例如 Atari/MuJoCo)上的性能可与标准强化学习 (RL) 技术相媲美,同时克服了 RL 的许多不便之处。

特别是,ES 实现起来更简单(不需要 反向传播),更容易在分布式设置中扩展,它不会在奖励稀疏的设置中受到影响,并且超 参数更少。这一结果令人惊讶,因为 ES 类似于高维空间中的简单爬山,仅基于  每一步沿几个随机方向的有限差分。

我们的发现延续了现代趋势,即用几十年的想法取得强大的成果。例如,在 2012 年,  “AlexNet”论文 展示了如何设计、扩展和训练卷积神经网络 (CNN) 以在图像识别任务上取得极强的结果,而当时大多数研究人员认为 CNN 并不是一种有前途的方法计算机视觉。同样,在 2013 年,  Deep Q-Learning 论文 展示了如何将 Q-Learning 与 CNN 相结合以成功解决 Atari 游戏,以激动人心的实验(而非理论)结果重振 RL 作为一个研究领域。同样,我们的工作表明 ES 在 RL 基准测试中取得了强大的性能,消除了人们普遍认为 ES 方法无法应用于高维问题的看法。

ES 易于实施和扩展。在 80 台机器和 1,440 个 CPU 内核的计算集群上运行,我们的实现能够在 10 分钟内训练 3D MuJoCo 人形步行者(32 个内核上的 A3C 大约需要 10 小时)。使用 720 个内核,我们还可以在 Atari 上获得与 A3C 相当的性能,同时将训练时间从 1 天减少到 1 小时。

在下文中,我们将首先简要描述传统的 RL 方法,将其与我们的 ES 方法进行对比,讨论 ES 和 RL 之间的权衡,最后重点介绍我们的一些实验。

强化学习

让我们简要地看一下 RL 是如何工作的。假设给定了一些我们想要训练代理的环境(例如游戏)。为了描述代理的行为,我们定义了一个策略函数(代理的大脑),它计算代理在任何给定情况下应该如何行动。在实践中,策略通常是一个神经网络,它将游戏的当前状态作为输入,并计算采取任何允许操作的概率。一个典型的策略函数可能有大约 1,000,000 个参数,因此我们的任务归结为找到这些参数的精确设置,以便策略发挥良好(即赢得很多游戏)。


详细论文