转载

OpenAI 五个基准测试：结果

昨天， OpenAI Five在现场观众和 100,000 名同时直播的观众面前赢得了三局两胜的比赛，对抗一支由 99.95% 的 Dota 选手组成的队伍： Blitz、 Cap、 Fogged、 Merlini和 MoonMeander——其中四人曾打过 Dota 职业比赛观众。

在观众以对抗方式选出 Five 的英雄后，人类队赢得了第三场比赛。我们还展示了我们的初步工作，以反省 Five 对游戏的看法，包括其获胜的可能性，这使得预测出乎人类观察者的意料。这些结果表明，Five 是朝着能够处理现实世界的复杂性和不确定性的高级人工智能系统迈出的一步。

如果您错过了： Purge 和 ODPixel评论的来自 Benchmark 的直播 。 克里斯蒂 和 格雷格 也都在推特上直播了这一活动。

当天概览

观众游戏

这一天开始时，来自观众的一群志愿者勇敢地与 OpenAI Five 进行了第一场公开比赛。前 14 分钟内有 5 人获胜（势均力敌的比赛通常需要 45 分钟）。

游戏 1 和 2

我们揭示了一个新的 OpenAI Five 能力—— 起草. 起草被认为是 Dota 中极具挑战性的部分，因为英雄之间的互动方式非常复杂。

6 月下旬，我们向神经网络添加了获胜概率输出，以反省 OpenAI Five 的预测结果。后来考虑选秀时，我们意识到我们可以用它来评估任何选秀的获胜概率：只需查看该阵容比赛第一帧的预测即可。在一周的实施中，我们为 1100 万个可能的团队对决中的每一个制作了一个假框架，并编写了一个树搜索来找到 OpenAI Five 的最佳选秀。

在第 1 场选秀后，OpenAI Five 预测获胜概率为 95%，尽管这场比赛在人类观察者看来几乎持平。它以21分37秒赢得了第一局。比赛2选秀结束后，OpenAI Five预测胜率为76.2%，用时24分53秒拿下第二。

游戏三：观众选秀

对于第三场比赛，我们要求观众选出 OpenAI Five 的英雄。不出所料，他们选择了对抗阵容。

本轮 OAI5 的阵容相当 Looney-Tunes。两个可怕的大坦克，Sven 和 Axe，有两个很好的隐身/ganker（突袭）英雄，Slark 和 Riki，以及可以眨眼（传送几米）逃跑和攻击的痛苦女王。
- Smerity (@Smerity) 2018 年 8 月 5 日

比赛开始前，OpenAI Five 预测获胜几率为 2.9%。尽管赔率很低，但有五个人继续比赛，并且在某一时刻取得了足够的进步以预测 17% 的获胜概率，但最终在 35 分 47 秒后输掉了比赛。

训练

我们通常的开发周期是从头开始训练系统的每个主要版本。然而，这个版本的 OpenAI Five 包含自 6 月 9 日以来在六个主要系统修订版中训练的参数。每个修订版都使用前一个修订版的参数进行初始化。

我们在“手术”工具上投入了大量资金，这使我们能够将旧参数映射到新的网络架构。例如，当我们第一次训练守卫时，我们共用一个动作头来确定移动到哪里以及在哪里放置守卫。但是五号经常会似乎朝着它试图去的方向空投病房，我们假设它主要将其容量分配给移动。我们的工具让我们将头部分成两个使用相同参数初始化的克隆。

我们估计我们使用了以下计算量来训练我们的各种 Dota 系统：

1v1 模型：8 petaflop/s-days
6 月 6 日模型：11 petaflop/s-days^A[A]
经过更严格的分析后，我们修改了这些数字 (4/14/19)
8 月 5 日模型：35 petaflop/s-days^乙[乙]
经过更严格的分析后，我们修改了这些数字 (4/14/19)

我们还发布了最新的网络架构。

在模型上达到顶峰

我们可以通过预测英雄未来位置的输出来深入了解模型的规划。在下面的视频中，突出显示的框显示了 Sven 在 6 秒内的预测位置：

描绘 Dota 视频游戏场景的 OpenAI Planning Ahead 海报

我们还可以训练输出来预测各种其他数量——最后命中、塔数等：

使我们的模型发挥作用需要解决许多错误和意外行为。这里有些例子：

下一步是什么

这些结果让我们有信心进入该项目的下一阶段：本月晚些时候在国际邀请赛上与专业团队交锋。一旦确认，我们将公布游戏的详细信息——在 Twitter 上关注我们以了解最新信息！

OpenAI研究