OpenAI研究 神经 MMO:大规模多智能体游戏环境
我们正在发布 Neural MMO,这是一个用于强化学习代理的大型多代理游戏环境。我们的平台在持续和开放式任务中支持大量可变数量的代理。许多代理人和物种的包含导致更好的探索、不同的生态位形成和更大的整体能力。
近年来,多智能体设置已成为 深度强化学习研究的有效平台 。尽管取得了这些进展,但多智能体强化学习仍然存在两个主要挑战。我们需要创建具有高复杂性上限的开放式任务:当前环境要么复杂但 过于狭窄 ,要么开放式但 过于简单。持久性和人口规模大等特性是关键,但我们还需要更多的 基准环境 在人口规模大和持久性存在的情况下量化学习进度。大型多人在线游戏 (MMO) 的游戏类型模拟了一个由数量不定的玩家在持续和广泛的环境中竞争的大型生态系统。
为了应对这些挑战,我们构建了 Neural MMO 以满足以下标准:
- 持久性:代理在没有环境重置的情况下在其他学习代理存在的情况下同时学习。策略必须考虑长期视野并适应其他代理人行为的潜在快速变化。
- 规模:环境支持大量可变数量的实体。我们的实验考虑了 100 个并发服务器中每个服务器中 128 个并发代理的 100M 生命周期。
- 效率:进入的计算障碍很低。我们可以在单个桌面 CPU 上训练有效的策略。
- 扩展: 与 现有的 MMO类似,我们的 Neural MMO 旨在更新新内容。当前的核心功能包括基于图块的地形的程序生成、食物和水的觅食系统以及战略战斗系统。未来有机会进行开源驱动的扩展。
环境
玩家 (代理人) 可以加入任何可用的 服务器 (环境),每个都包含一个自动生成的可配置大小的基于图块的游戏地图。一些瓦片,例如承载食物的森林瓦片和草地瓦片,是可穿越的。其他的,例如水和坚硬的石头,则不是。代理在环境边缘的随机位置生成。他们必须获得食物和水,并避免来自其他代理人的战斗伤害,以维持他们的健康。踩在森林地块上或靠近水地地块会分别补充代理人的一部分食物或水供应。然而,森林单元格的食物供应有限,随着时间的推移会缓慢恢复。这意味着代理必须竞争食物块,同时定期从无限水块中补充供水。玩家使用三种战斗方式进行战斗,分别表示为 近战、远程 和 法师 的味道。
输入:代理观察以当前位置为中心的正方形瓷砖。这包括瓷砖地形类型和占用代理的选择属性(健康、食物、水和位置)。
输出:代理输出下一个游戏 刻度 (时间步长)的动作选择。动作包括一次移动和一次攻击。

该模型
作为一个简单的基线,我们使用普通策略梯度训练一个小型的、完全连接的架构 ,价值函数基线和奖励折扣是唯一的增强。代理人不会奖励实现特定目标的代理人,而是只针对他们的 生命周期 (轨迹长度)进行优化:他们在生命周期的每个时间点都会收到奖励 1。我们通过计算所有玩家的最大值,将可变长度的观察结果(例如周围玩家列表)转换为单个长度向量(OpenAI Five 也使用了这个技巧)。源版本包括我们基于 PyTorch 和 Ray 的完整分布式训练实现。
评估结果

智能体的策略是从多个种群中统一采样的——不同种群中的智能体共享架构,但只有相同种群中的智能体共享权重。初步实验表明,代理能力随着多代理交互的增加而扩展。增加并发玩家的最大数量会扩大探索;人口数量的增加会扩大生态位形成——即人口在地图的不同部分扩散和觅食的趋势。
服务器合并锦标赛:多代理放大能力
MMO 之间没有用于评估跨多个服务器的相对玩家能力的标准程序。然而,MMO 服务器有时会进行合并,其中来自多个服务器的玩家基地被放置在一个服务器中。我们通过合并在不同服务器上训练的玩家基础来实施“锦标赛”风格评估。这使我们能够直接比较在不同实验设置中学习到的策略。我们改变测试时间尺度,发现在较大设置中训练的代理始终优于在较小设置中训练的代理。
人口规模的增加扩大了探索
在自然界中,动物之间的竞争可以激励它们分散开来避免冲突。我们观察到地图覆盖率随着并发代理数量的增加而增加。代理人学习探索只是因为其他代理人的存在提供了这样做的自然动机。
物种数量的增加放大了生态位的形成

给定一个足够大且资源丰富的环境,我们发现不同的代理人种群在地图上分开,以避免随着人口的增加与其他代理人竞争。由于实体无法与自己种群中的其他代理人(即与它们共享权重的代理人)竞争,因此它们倾向于寻找地图上包含足够资源以维持其种群数量的区域。在DeepMind 的并发多智能体研究中也独立观察到了类似的效果 。
额外的见解

我们通过将代理固定在假设地图裁剪的中心来可视化代理与代理的依赖关系。对于该代理可见的每个位置,我们展示了如果在该位置有第二个代理,价值函数将是什么。我们发现代理人在觅食和战斗环境中学习依赖于其他代理人的策略。代理人学习“靶心”回避地图,仅经过几分钟的培训就可以开始更有效地觅食。随着代理人了解环境的战斗机制,他们开始适当地重视有效的交战范围和接近角度。