转载

OpenAI Procgen和MineRL竞赛

我们很高兴地宣布,OpenAI 正在与 AIcrowd、卡内基梅隆大学和 DeepMind 共同组织两项 NeurIPS 2020 竞赛,使用 Procgen Benchmark 和 MineRL。我们在内部严重依赖这些环境来研究强化学习,我们期待看到社区在这些具有挑战性的竞赛中取得的进步。

Procgen 竞赛

Procgen 竞赛 侧重于提高强化学习中的样本效率和泛化能力。参与者将尝试使用固定数量的环境交互来最大化代理的性能。代理将在已在Procgen Benchmark中公开发布的 16 个环境中的每一个 以及专门为本次比赛创建的四个秘密测试环境中进行评估。通过汇总如此多不同环境的性能,我们获得了高质量的指标来判断底层算法。有关每轮详细信息的更多信息,请参见 此处

由于所有内容都是程序生成的,因此每个 Procgen 环境本质上都需要代理将其概括为前所未见的情况。因此,这些环境提供了对代理在许多不同设置中学习能力的可靠测试。此外,我们将 Procgen 环境设计为快速且易于使用。计算资源有限的参与者将能够轻松重现我们的基线结果并运行新实验。我们希望这将使参与者能够快速迭代新方法,以提高 RL 中的样本效率和泛化能力。

注册 Procgen

MineRL 竞赛

人工智能最近取得的许多成功,例如 AlphaStar、AlphaGo 和我们自己的 OpenAI Five,都利用深度强化学习在连续决策任务中实现人类或超人类水平的表现。到目前为止,这些对最先进技术的改进需要呈 指数级增长 的计算和模拟器样本,因此很难A[A]

虽然由于所需的样本数量过多而无法直接应用,但 Sim2Real 和数据增强技术可以减轻直接对真实世界动态进行采样的需要。

将这些系统中的许多直接应用于环境样本昂贵的现实世界问题。一种众所周知的降低环境样本复杂性的方法是利用人类先验和所需行为的示范。
仍然是 Minecraft 游戏玩法


为了进一步促进这方面的研究,我们正在共同组织 MineRL 2020 竞赛 ,旨在促进算法的开发,这些算法可以有效地利用人类演示来大幅减少解决复杂、分层和稀疏环境所需的样本数量。为此,参与者将竞争开发系统,  仅使用来自 MineRL 模拟器的8,000,000 个样本 和在单个 GPU 机器上进行 4 天的训练,就可以从原始像素中获得Minecraft中的钻石。将向参与者提供 MineRL-v0 数据集(网站、 论文),一个包含超过 6000 万帧人类演示的大规模集合,使他们能够利用专家轨迹来最大限度地减少他们的算法与 Minecraft 模拟器的交互。

本次比赛是MineRL 2019 比赛的后续比赛  ,其中 顶级团队的代理 能够  在极其有限的计算和模拟器交互预算下获得铁镐(比赛的倒数第二个目标)。从长远来看,最先进的标准强化学习系统需要在大型多 GPU 系统上进行数亿次环境交互才能实现相同的目标。今年,我们预计竞争对手将进一步推动最先进的技术发展。

为了保证参赛者开发出真正有效的样本算法,MineRL 竞赛组织者从头开始训练顶级团队的最后一轮模型,并对可用的硬件、计算和模拟器交互进行严格限制。MineRL 2020 竞赛还采用了一种新颖的措施来避免手动工程特征和对域的过度拟合解决方案。有关竞争结构的更多详细信息,请参见 此处