转载

OpenAI研究开放人工智能五

我们的五个神经网络团队 OpenAI Five 已经开始在Dota 2中击败业余人类团队。虽然今天我们的比赛受到限制，但我们的目标是在 8 月份的国际邀请赛上击败一支顶级专业队伍，但只需要少数英雄。我们可能不会成功：Dota 2 是世界上最受欢迎和最复杂的电子竞技游戏之一，拥有富有创造力和积极性的专业人士，他们全年接受培训，以赚取 Dota 每年 4000 万美元奖池（所有电子竞技游戏中最大的奖池）的一部分。

OpenAI Five 每天都在与自己进行 180 年的比赛，通过自我对弈来学习。它使用在 256 个 GPU 和 128,000 个 CPU 内核上运行的放大版本的近端策略优化进行训练——这是我们去年为玩更简单的单人游戏版本而构建的系统的更大规模版本。它为每个英雄使用一个单独的 LSTM 并且没有人类数据，它学习可识别的策略。这表明强化学习可以产生规模大但可实现的长期规划——没有根本性的进步，这与我们开始项目时的预期相反。

为了衡量我们的进步，我们将在 8 月 5 日举办一场与顶级玩家的比赛。在 Twitch 上关注我们以观看直播，或请求邀请亲自参加！

问题

人工智能的一个里程碑是在星际争霸或 Dota等复杂视频游戏中超越人类的能力。相对于之前的国际象棋或围棋等人工智能里程碑，复杂的视频游戏开始捕捉现实世界的混乱和连续性。希望解决复杂视频游戏的系统具有高度通用性，并在游戏之外有应用。

Dota 2 是一款即时战略游戏，由两队五人玩家组成，每队玩家控制一个名为“英雄”的角色。玩 Dota 的 AI 必须掌握以下内容：

长期视野。 Dota 游戏以每秒 30 帧的速度运行，平均持续 45 分钟，每场比赛产生 80,000 个滴答。大多数动作（比如命令英雄移动到某个位置）单独影响很小，但一些单独的动作比如城镇传送门的使用可以从战略上影响游戏；有些策略可以在整个游戏中发挥作用。OpenAI Five 每四帧观察一次，产生 20,000 次移动。国际象棋通常在 40 步前结束，围棋在 150 步之前结束，几乎每一步都具有战略意义。
部分观察状态。 单位和建筑物只能看到他们周围的区域。地图的其余部分被迷雾所覆盖，隐藏着敌人和他们的策略。强大的游戏需要根据不完整的数据进行推断，以及模拟对手可能会做什么。国际象棋和围棋都是全信息游戏。
高维、连续的动作空间。 在 Dota 中，每个英雄都可以执行数十个动作，并且许多动作都针对另一个单位或地面上的一个位置。我们将空间离散化为每个英雄 170,000 个可能的动作（并非每个 tick 都有效，例如在冷却时使用法术）；不计算连续部分，每个 tick 平均有大约 1,000 个有效动作。国际象棋的平均动作数是 35；在围棋中，250。
高维、连续的观察空间。 Dota 是在一张包含十位英雄、数十座建筑、数十个 NPC单位以及长长的符文、树木和守卫等游戏功能的连续大地图上进行的。我们的模型通过 Valve 的Bot API将 Dota 游戏的状态观察为 20,000 个（主要是浮点数）数字，代表允许人类访问的所有信息。一个棋盘自然地表示为大约 70 个枚举值（一个 8x8 棋盘，有 6 种棋子类型和少量历史信息）；围棋棋盘大约有 400 个枚举值（2 种类型的 19x19 棋盘加上 Ko ）。

Dota 规则也非常复杂——游戏已经积极开发了十多年，游戏逻辑在数十万行代码中实现。此逻辑每滴答需要几毫秒才能执行，而国际象棋或围棋引擎则需要几纳秒。该游戏还大约每两周更新一次，不断改变环境语义。

我们的方法

我们的系统使用大规模版本的近端策略优化进行学习。OpenAI Five 和我们早期的 1v1 机器人都完全从自我对弈中学习。它们从随机参数开始，不使用搜索或从人工重播中引导。

	OpenAI 1v1 机器人	开放人工智能五
处理器	Azure 上的 60,000 个 CPU 内核	GCP 上有128,000 个可抢占的CPU 内核
显卡	Azure 上的 256 个 K80 GPU	GCP 上有 256 个 P100 GPU
经验收集	每天约 300 年	每天约 180 年（每天约 900 年，分别计算每个英雄）
观察规模	~3.3 KB	~36.8 KB
每秒对游戏的观察	10	7.5
批量大小	8,388,608 次观察	1,048,576 次观察
每分钟批次	~20	~60

RL 研究人员（包括我们自己）普遍认为，长期视野需要从根本上取得新进展，例如分层强化学习。我们的结果表明，我们没有给予今天的算法足够的信任——至少当它们以足够的规模运行并以合理的方式探索时是这样。

我们的智能体经过训练以最大化未来奖励的指数衰减总和，由称为的指数衰减因子加权 γ。在 OpenAI Five 的最新训练运行中，我们 γ 从 0.998 （评估未来奖励的半衰期为 46 秒）退火到 0.9997 （评估未来奖励的半衰期为 5 分钟）。作为对比， PPO论文中最长的半衰期为 0.5 秒， Rainbow 论文中最长的半衰期为 4.4 秒， Observe and Look Further 论文中使用的半衰期为 46 秒。

虽然当前版本的 OpenAI Five 在最后一击方面较弱（观察我们的测试比赛，专业的 Dota 评论员 Blitz 估计它在 Dota 玩家的中间值左右），但其客观优先级与常见的职业策略相匹配。获得战略地图控制等长期奖励通常需要牺牲短期奖励，例如从耕种中获得的黄金，因为分组攻击塔需要时间。这一观察强化了我们的信念，即该系统在长期内真正优化。

模型结构

OpenAI Five 的每个网络都包含一个单层、1024 单元的 LSTM ，它可以查看当前游戏状态（从 Valve 的 Bot API中提取）并通过多个可能的动作头发出动作。每个头部都有语义，例如，延迟此动作的滴答数、选择哪个动作、此动作在单元周围网格中的 X 或 Y 坐标等。动作头部是独立计算的。

OpenAI Five 使用的观察空间和动作空间的交互演示。OpenAI Five 将世界视为一个包含 20,000 个数字的列表，并通过发出一个包含 8 个枚举值的列表来采取行动。选择不同的动作和目标，了解 OpenAI Five 如何编码每个动作，以及它如何观察世界。该图像显示了人类所看到的场景。

场景 4：团队分区中推

动作

观察

动作：弹片

目标狙击手

偏移 X

-400

-300

-200

-100

100

200

300

400

偏移 Y

-400

-300

-200

-100

100

200

300

400

动作延迟

狙击手

OpenAI研究

OpenAI研究开放人工智能五

问题

我们的方法

模型结构

相关文章

本文目录

标签

近期评论

OpenAI研究 开放人工智能五

问题

我们的方法

模型结构

相关文章

本文目录

标签

近期评论

OpenAI研究开放人工智能五