转载

OpenAI 五个基准测试:结果

昨天,  OpenAI Five在现场观众和 100,000 名同时直播的观众面前 赢得了三局两胜的比赛,对抗一支由 99.95% 的 Dota 选手组成的队伍:  Blitz、  Cap、  Fogged、  Merlini和 MoonMeander——其中四人曾打过 Dota 职业比赛观众。

在观众以对抗方式选出 Five 的英雄后,人类队赢得了第三场比赛。我们还展示了我们的初步工作,以反省 Five 对游戏的看法,包括其获胜的可能性,这使得预测出乎人类观察者的意料。这些结果表明,Five 是朝着能够处理 现实世界的复杂性和不确定性的高级人工智能系统迈出的一步。

如果您错过了: Purge 和 ODPixel评论的来自 Benchmark 的直播 。 克里斯蒂 和 格雷格 也都在推特上直播了这一活动。

当天概览

观众游戏

这一天开始时,来自观众的一群志愿者勇敢地与 OpenAI Five 进行了第一场公开比赛。前 14 分钟内有 5 人获胜(势均力敌的比赛通常需要 45 分钟)。

大型、拥挤的场地,观众面对一组发言的人
一排人戴着耳机在电脑显示器上玩 Dota

游戏 1 和 2

拥抱他的队友的人

我们揭示了一个新的 OpenAI Five 能力—— 起草. 起草被认为是 Dota 中极具挑战性的 部分,因为英雄之间的互动方式非常复杂。

OpenAI 五队概率估计

6 月下旬,我们向神经网络添加了获胜概率输出,以反省 OpenAI Five 的预测结果。后来考虑选秀时,我们意识到我们可以用它来评估任何选秀的获胜概率:只需查看该阵容比赛第一帧的预测即可。在一周的实施中,我们为 1100 万个可能的团队对决中的每一个制作了一个假框架,并编写了一个树搜索来找到 OpenAI Five 的最佳选秀。

关注一排向上看的人

在第 1 场选秀后,OpenAI Five 预测获胜概率为 95%,尽管这场比赛在人类观察者看来几乎持平。它以21分37秒赢得了第一局。比赛2选秀结束后,OpenAI Five预测胜率为76.2%,用时24分53秒拿下第二。

游戏三:观众选秀

对于第三场比赛,我们要求观众选出 OpenAI Five 的英雄。不出所料 ,他们选择了对抗阵容。

本轮 OAI5 的阵容相当 Looney-Tunes。两个可怕的大坦克,Sven 和 Axe,有两个很好的隐身/ganker(突袭)英雄,Slark 和 Riki,以及可以眨眼(传送几米)逃跑和攻击的痛苦女王。

- Smerity (@Smerity) 2018 年 8 月 5 日

比赛开始前,OpenAI Five 预测获胜几率为 2.9%。尽管赔率很低,但有五个人继续比赛,并且在某一时刻取得了足够的进步以预测 17% 的获胜概率,但最终在 35 分 47 秒后输掉了比赛。

人们在带黑色显示器的长桌后互相问候

训练

我们通常的开发周期是从头开始训练系统的每个主要版本。然而,这个版本的 OpenAI Five 包含自 6 月 9 日以来在六个主要系统修订版中训练的参数。每个修订版都使用前一个修订版的参数进行初始化。

我们在“手术”工具上投入了大量资金,这使我们能够将旧参数映射到新的网络架构。例如,当我们第一次训练守卫时,我们共用一个动作头来确定移动到哪里以及在哪里放置守卫。但是五号经常会似乎朝着它试图去的方向空投病房,我们假设它主要将其容量分配给移动。我们的工具让我们将头部分成两个使用相同参数初始化的克隆。

我们估计我们使用了以下 计算量 来训练我们的各种 Dota 系统:

  • 1v1 模型:8 petaflop/s-days
  • 6 月 6 日模型:11 petaflop/s-daysA[A]

    经过更严格的分析后,我们修改了这些数字 (4/14/19)

  • 8 月 5 日模型:35 petaflop/s-days[乙]

    经过更严格的分析后,我们修改了这些数字 (4/14/19)

我们还发布了最新的 网络架构

在模型上达到顶峰

我们可以通过预测英雄未来位置的输出来深入了解模型的规划。在下面的视频中,突出显示的框显示了 Sven 在 6 秒内的预测位置:

描绘 Dota 视频游戏场景的 OpenAI Planning Ahead 海报



我们还可以训练输出来预测各种其他数量——最后命中、塔数等:

OpenAI 预测游戏海报描绘了 Dota 视频游戏场景


使我们的模型发挥作用需要解决许多错误和意外行为。这里有些例子:

Dota 视频游戏景观


下一步是什么

这些结果让我们有信心进入该项目的下一阶段:本月晚些时候在国际邀请赛上与专业团队交锋。一旦确认,我们将公布游戏的详细信息——在 Twitter 上关注我们 以了解最新信息!