转载

OpenAI研究进化策略作为强化学习的可扩展替代方案

我们发现进化策略 (ES) 是一种几十年来为人所知的优化技术，在现代 RL 基准（例如 Atari/MuJoCo）上的性能可与标准强化学习 (RL) 技术相媲美，同时克服了 RL 的许多不便之处。

特别是，ES 实现起来更简单（不需要反向传播），更容易在分布式设置中扩展，它不会在奖励稀疏的设置中受到影响，并且超参数更少。这一结果令人惊讶，因为 ES 类似于高维空间中的简单爬山，仅基于每一步沿几个随机方向的有限差分。

我们的发现延续了现代趋势，即用几十年的想法取得强大的成果。例如，在 2012 年， “AlexNet”论文展示了如何设计、扩展和训练卷积神经网络 (CNN) 以在图像识别任务上取得极强的结果，而当时大多数研究人员认为 CNN 并不是一种有前途的方法计算机视觉。同样，在 2013 年， Deep Q-Learning 论文展示了如何将 Q-Learning 与 CNN 相结合以成功解决 Atari 游戏，以激动人心的实验（而非理论）结果重振 RL 作为一个研究领域。同样，我们的工作表明 ES 在 RL 基准测试中取得了强大的性能，消除了人们普遍认为 ES 方法无法应用于高维问题的看法。

ES 易于实施和扩展。在 80 台机器和 1,440 个 CPU 内核的计算集群上运行，我们的实现能够在 10 分钟内训练 3D MuJoCo 人形步行者（32 个内核上的 A3C 大约需要 10 小时）。使用 720 个内核，我们还可以在 Atari 上获得与 A3C 相当的性能，同时将训练时间从 1 天减少到 1 小时。

在下文中，我们将首先简要描述传统的 RL 方法，将其与我们的 ES 方法进行对比，讨论 ES 和 RL 之间的权衡，最后重点介绍我们的一些实验。

强化学习

让我们简要地看一下 RL 是如何工作的。假设给定了一些我们想要训练代理的环境（例如游戏）。为了描述代理的行为，我们定义了一个策略函数（代理的大脑），它计算代理在任何给定情况下应该如何行动。在实践中，策略通常是一个神经网络，它将游戏的当前状态作为输入，并计算采取任何允许操作的概率。一个典型的策略函数可能有大约 1,000,000 个参数，因此我们的任务归结为找到这些参数的精确设置，以便策略发挥良好（即赢得很多游戏）。

详细论文

OpenAI研究

OpenAI研究进化策略作为强化学习的可扩展替代方案

强化学习

相关文章

本文目录

标签

近期评论

OpenAI研究 进化策略作为强化学习的可扩展替代方案

强化学习

相关文章

本文目录

标签

近期评论

OpenAI研究进化策略作为强化学习的可扩展替代方案