OpenAI 五个基准测试:结果
昨天, OpenAI Five在现场观众和 100,000 名同时直播的观众面前 赢得了三局两胜的比赛,对抗一支由 99.95% 的 Dota 选手组成的队伍: Blitz、 Cap、 Fogged、 Merlini和 MoonMeander——其中四人曾打过 Dota 职业比赛观众。
在观众以对抗方式选出 Five 的英雄后,人类队赢得了第三场比赛。我们还展示了我们的初步工作,以反省 Five 对游戏的看法,包括其获胜的可能性,这使得预测出乎人类观察者的意料。这些结果表明,Five 是朝着能够处理 现实世界的复杂性和不确定性的高级人工智能系统迈出的一步。
如果您错过了: Purge 和 ODPixel评论的来自 Benchmark 的直播 。 克里斯蒂 和 格雷格 也都在推特上直播了这一活动。
当天概览
观众游戏
这一天开始时,来自观众的一群志愿者勇敢地与 OpenAI Five 进行了第一场公开比赛。前 14 分钟内有 5 人获胜(势均力敌的比赛通常需要 45 分钟)。


游戏 1 和 2

我们揭示了一个新的 OpenAI Five 能力—— 起草. 起草被认为是 Dota 中极具挑战性的 部分,因为英雄之间的互动方式非常复杂。

6 月下旬,我们向神经网络添加了获胜概率输出,以反省 OpenAI Five 的预测结果。后来考虑选秀时,我们意识到我们可以用它来评估任何选秀的获胜概率:只需查看该阵容比赛第一帧的预测即可。在一周的实施中,我们为 1100 万个可能的团队对决中的每一个制作了一个假框架,并编写了一个树搜索来找到 OpenAI Five 的最佳选秀。

在第 1 场选秀后,OpenAI Five 预测获胜概率为 95%,尽管这场比赛在人类观察者看来几乎持平。它以21分37秒赢得了第一局。比赛2选秀结束后,OpenAI Five预测胜率为76.2%,用时24分53秒拿下第二。
游戏三:观众选秀
对于第三场比赛,我们要求观众选出 OpenAI Five 的英雄。不出所料 ,他们选择了对抗阵容。
本轮 OAI5 的阵容相当 Looney-Tunes。两个可怕的大坦克,Sven 和 Axe,有两个很好的隐身/ganker(突袭)英雄,Slark 和 Riki,以及可以眨眼(传送几米)逃跑和攻击的痛苦女王。
- Smerity (@Smerity) 2018 年 8 月 5 日
比赛开始前,OpenAI Five 预测获胜几率为 2.9%。尽管赔率很低,但有五个人继续比赛,并且在某一时刻取得了足够的进步以预测 17% 的获胜概率,但最终在 35 分 47 秒后输掉了比赛。

训练
我们通常的开发周期是从头开始训练系统的每个主要版本。然而,这个版本的 OpenAI Five 包含自 6 月 9 日以来在六个主要系统修订版中训练的参数。每个修订版都使用前一个修订版的参数进行初始化。
我们在“手术”工具上投入了大量资金,这使我们能够将旧参数映射到新的网络架构。例如,当我们第一次训练守卫时,我们共用一个动作头来确定移动到哪里以及在哪里放置守卫。但是五号经常会似乎朝着它试图去的方向空投病房,我们假设它主要将其容量分配给移动。我们的工具让我们将头部分成两个使用相同参数初始化的克隆。
我们估计我们使用了以下 计算量 来训练我们的各种 Dota 系统:
- 1v1 模型:8 petaflop/s-days
- 6 月 6 日模型:11 petaflop/s-daysA[A]
经过更严格的分析后,我们修改了这些数字 (4/14/19)
- 8 月 5 日模型:35 petaflop/s-days乙[乙]
经过更严格的分析后,我们修改了这些数字 (4/14/19)
我们还发布了最新的 网络架构。
在模型上达到顶峰
我们可以通过预测英雄未来位置的输出来深入了解模型的规划。在下面的视频中,突出显示的框显示了 Sven 在 6 秒内的预测位置:

我们还可以训练输出来预测各种其他数量——最后命中、塔数等:

使我们的模型发挥作用需要解决许多错误和意外行为。这里有些例子:

下一步是什么
这些结果让我们有信心进入该项目的下一阶段:本月晚些时候在国际邀请赛上与专业团队交锋。一旦确认,我们将公布游戏的详细信息——在 Twitter 上关注我们 以了解最新信息!