OpenAI Five 击败 Dota 2 世界冠军
OpenAI Five 是第一个在电子竞技比赛中击败世界冠军的人工智能,在本周末的总决赛中 连续两场战胜世界冠军 Dota 2 战队 OG 。OpenAI Five 和 DeepMind 的 AlphaStar 此前都曾私下击败过优秀的职业选手,但在职业比赛现场输掉了比赛,这也是人工智能首次在直播中击败电竞职业选手。

在 OpenAI Five Five Finals 上,我们还分享了两个惊喜:
- OpenAI Five 发现了与人类成为队友的基本能力,尽管我们的训练过程只专注于击败其他机器人。我们轻而易举地将竞争性 AI 转变为合作性 AI,这让我们希望未来的 AI 系统能够在积极的开发努力下对人类非常有益。
- 从 4 月 18 日到 21 日,我们将扩展 OpenAI Five 以 玩互联网,无论是作为竞争对手还是队友。这个最终测试将让我们回答一个重要的研究问题——OpenAI Five 在多大程度上是可利用的或可以以其他方式可靠地被击败——并且可能是有史以来最大规模的人们可以有意识地与之交互的高效深度强化学习代理的部署。
为什么是刀塔?
我们启动 OpenAI Five 是为了解决现有深度强化学习无法解决的问题A[A]
深度强化学习是训练深度神经网络以使用奖励和惩罚来实现目标的想法


为了构建 OpenAI Five,我们创建了一个名为 Rapid的系统 ,它让我们能够 以前所未有 的规模运行PPO。结果超出了我们最狂野的预期,我们在没有达到任何基本性能限制的情况下生产了世界级的 Dota 机器人。
当今 RL 算法的惊人力量是以大量经验为代价的,这在游戏或模拟环境之外可能是不切实际的。这种限制可能不像声音那么糟糕——例如,我们使用 Rapid 来控制 机械手 灵巧地重新定向块,完全在模拟中训练并在物理机器人上执行。但我们认为减少经验量是 RL 的下一个挑战。
我们今天将作为竞争对手退出 OpenAI Five,但取得的进步和开发的技术将继续推动我们未来的工作。这不是我们 Dota 工作的结束——我们认为 Dota 是一个本质上比今天使用的标准开发环境更有趣和困难(现在已经很好理解!)的 RL 开发环境。
计算
与 2018 年国际锦标赛的失利相比,OpenAI Five 在周六取得的胜利归功于一个重大变化:训练计算量增加了 8 倍。在项目的许多先前阶段,我们将通过增加培训规模来推动进一步的进展。但在国际邀请赛之后,我们已经将项目的绝大部分计算用于训练单个 OpenAI Five 模型。因此,我们以唯一可用的方式增加了计算规模:训练更长时间。
总的来说,当前版本的 OpenAI Five 已经消耗了 800 petaflop/s-days,并在 10 个实时月中经历了大约 45,000 年的 Dota 自我游戏(高于 International 的 1.5 个实时月中的大约 10,000 年),平均每天 250 年的模拟经验。OpenAI Five 的总决赛版本与 TI 版本相比具有 99.9% 的胜率。乙[乙]
根据当前游戏补丁评估的胜率。由于 TI 版本是在较旧的补丁上训练的,因此这会使胜率偏向总决赛版本,但目前我们没有其他方法来比较在不同游戏版本上训练的代理。
迁移学习
当前版本的 OpenAI Five 自 2018 年 6 月以来一直在持续训练,尽管 模型大小 和游戏规则发生了变化(包括一些相当大的游戏补丁更新和新实现的功能)。在每种情况下,我们都能够将模型转移过来并继续训练——这 对其他领域的 RL 来说是一个公开的挑战。据我们所知,这是 RL 智能体第一次使用如此长时间的训练运行进行训练。
为了使这项工作成功,我们继续充实我们的 手术 工具,这样即使在架构发生重大变化时,我们也可以从经过训练的参数开始。
更多英雄
从 5 个英雄 到 18 个 英雄,我们发现训练速度几乎没有放缓。我们假设更多英雄也会如此,在国际邀请赛之后,我们投入了大量精力来整合新英雄。
我们花了数周时间对最多 25 个英雄的英雄池进行训练,使这些英雄的 MMR 达到大约 5k(大约 Dota 玩家的第 95 个百分位数)。尽管他们仍在进步,但他们的学习速度还不够快,无法在总决赛前达到职业水平。我们还没有时间调查原因,但我们的假设范围从模型容量不足到需要为扩大的英雄池提供更好的配对,再到需要更多的训练时间让新英雄赶上老英雄。想象一下,当其他人都掌握了一个新英雄时,一个人要学习一个新英雄是多么困难!
我们相信这些问题从根本上是可以解决的,解决它们本身就很有趣。总决赛版本有 17 个英雄——我们移除了巫妖,因为他的技能在 Dota 7.20 版本中发生了显着变化。
合作模式
实际上感觉很好;我的毒蛇在某个时刻为我献出了生命。他试图帮助我,心想“我确定她知道自己在做什么”,但显然我没有。但是,你知道,他相信我。我对 [人类] 队友不太了解。—谢弗

OpenAI Five 与人类一起玩耍的能力为人类与人工智能交互的未来提出了一个令人信服的愿景,即人工智能系统协作并增强人类体验的愿景。我们的测试人员报告说,他们感觉得到了机器人队友的支持,他们从与这些先进系统一起玩的过程中学到了东西,总体来说这是一种有趣的体验。
请注意,OpenAI Five 展示了零样本迁移学习——它被训练为让所有英雄都由自己的副本控制,但泛化为控制一部分英雄,与人类对战或对抗人类。我们非常惊讶它的效果如此之好。事实上,我们考虑过在国际邀请赛上进行合作比赛,但认为这需要专门的训练。
竞技场
我们正在推出 OpenAI Five Arena,这是一项公开实验,我们将让任何人在竞争和合作模式下玩 OpenAI Five。我们知道我们的 1v1 机器人可以 通过巧妙的策略被利用 ;我们不知道 OpenAI Five 在多大程度上也是如此,但我们很高兴邀请社区帮助我们找出答案!
Arena 将于太平洋标准时间 4 月 18 日星期四下午 6 点开放,并将于太平洋标准时间 4 月 21 日星期日晚上 11:59 关闭。 请注册,以便我们确保您所在地区有足够的服务器容量!所有游戏的结果将自动报告到竞技场公共排行榜。

我们非常感谢 Dota 社区在过去两年中给予我们的所有支持,我们希望 Arena 也能作为一种小小的回馈方式。玩得开心!
下一步是什么
一旦我们审查了 OpenAI Five Arena 的结果,我们将发布对 OpenAI Five 的更多技术分析。
之后,我们将继续在 OpenAI 中使用 Dota 2 环境。在过去的两年里,我们看到了 RL 能力的快速进步,我们认为 Dota 2 将继续帮助我们推进可能的事情——无论是通过更少的数据实现出色的表现,还是真正的人类与人工智能的合作。