转载

OpenAI研究 多代理交互中的紧急工具使用

我们观察到代理人在玩简单的捉迷藏游戏时发现越来越复杂的工具使用。通过在我们新的模拟捉迷藏环境中进行训练,代理人建立了一系列六种不同的策略和反策略,其中一些我们不知道我们的环境支持。这种简单环境中的自监督涌现复杂性进一步表明,多智能体协同适应有朝一日可能会产生极其复杂和智能的行为。

多代理强化学习里程碑出版物发布


在我们的环境中,代理玩基于团队的捉迷藏游戏。藏身者(蓝色)的任务是避开寻找者(红色)的视线,寻找者的任务是保持藏身者的视线。有些物体散落在整个环境中,躲藏者和寻找者可以抓住并锁定到位,还有随机生成的不可移动的房间和墙壁,代理必须学会导航。在游戏开始之前,躲藏者有一个准备阶段,在这个阶段,寻找者被固定住,让躲藏者有机会逃跑或改变他们的环境。

代理可以通过在 x 和 y 方向上对自身设置力来移动,也可以沿 z 轴旋转。
代理人可以在他们的视线内和额锥内看到物体。
这些代理可以使用类似激光雷达的传感器来感知与周围物体、墙壁和其他代理的距离。
代理可以抓住并移动他们面前的物体。
代理可以将对象锁定到位。只有锁定对象的团队才能解锁它。

没有明确的激励代理人与环境中的对象进行交互;唯一的监督是通过捉迷藏目标。代理人获得基于团队的奖励;如果所有隐藏者都被隐藏,隐藏者将获得 +1 的奖励;如果任何隐藏者被寻找者看到,隐藏者将获得 -1 的奖励。寻找者得到相反的奖励,如果所有隐藏者都被隐藏,则为 -1,否则为 +1。为了将智能体的行为限制在合理的空间内,智能体如果在游戏区域外走得太远就会受到惩罚。在准备阶段,所有代理都获得零奖励。

自学课程和紧急行为

当智能体在捉迷藏中相互训练时, 会出现多达六种不同的策略。每个新策略都会为代理人进入下一阶段创造以前不存在的压力。请注意,没有直接激励代理人与对象交互或探索; 相反,下面显示的紧急策略是由多代理竞争和捉迷藏的简单动态引起的自学课程的结果 。

出现在一个简单的环境中我们首先展示出现

我们首先展示了在一个简单的环境中学习的紧急策略,该环境有 2 个躲藏者、2 个搜寻者、2 个盒子、1 个坡道和一个有 1-2 个随机放置的门的房间。

每集奖励
求道者
隐藏者
chart = RuntimeError: 获取失败
玩过的游戏
第0集
随机 代理随机移动。
第 0–269 万集
追逐 者学习追逐隐藏者。
第 2.69–862 万集
Door Blocking  Hiders 学习抓取和移动箱子来挡住门。
第 8.62–1450 万集
使用坡道 探索者学习使用坡道跳过障碍。
第 14.5–4340 万集
坡道防御 躲藏者学会在房间内移动坡道以防止搜寻者使用它。
此外,躲藏者学会协调谁挡住哪扇门,谁去抢坡道。在箱子离门较远的情况下,躲藏者将箱子相互传递,以便及时堵住门。

全环境出现

接下来,我们展示了在随机化程度更高的环境中学习的紧急策略,包括 1-3 个躲藏者、1-3 个探索者、3-9 个街区、2 个坡道以及随机化的房间和门。在这个完整的环境中,代理比之前的简单环境多经历两个紧急策略阶段。

每集奖励
求道者
隐藏者
chart = RuntimeError: 获取失败
玩过的游戏
第0集
随机 代理随机移动。
第 0–2200 万集
追逐 者学习追逐隐藏者。
第 22–88 百万集
建造避难所 躲藏 者学习建造避难所来躲藏。
第 88–1.15 亿集
使用坡道 探索者学习使用坡道跳过障碍。
第 115–3.88 亿集
坡道防御 Hiders 学习锁定坡道以防止搜索者使用它们。
第 388–4.58 亿集
Box Surfing  Seekers 学习将箱子带到上锁的斜坡上,以便跳到箱子顶部,然后“冲浪”到藏身者的避难所。由于代理的驱动机制,盒子冲浪成为可能,这使得他们可以对自己施加力,而不管他们是否在地面上。
第 458–4.81 亿集
Surf Defense  Hiders 学习锁定所有坡道和箱子以防止箱子冲浪。

训练捉迷藏特工

我们使用与训练 OpenAI Five 和 Dactyl相同的训练基础设施和算法。然而,在我们的环境中,每个代理独立行动,使用自己的观察和隐藏的记忆状态。代理使用以实体为中心的基于状态的世界表示,它  对于对象和其他代理是排列不变的。

每个对象都被嵌入,然后通过一个屏蔽的剩余自注意力块,类似于 transformers中使用的块,其中注意力是针对对象而不是时间。不在视线范围内和在代理前面的对象被屏蔽掉,这样代理就没有它们的信息。

多代理策略架构图

智能体策略通过自我博弈 和 近端策略优化进行训练 。在优化期间,代理可以在其价值函数中使用有关模糊对象和其他代理的特权信息。

我们发现,大规模培训对于代理人在出现的各个阶段取得进展至关重要。下面我们显示了不同批量大小的智能体达到第 4 阶段(斜坡防御)所需的时间和回合数。我们发现增加批量大小可以显着加快收敛的挂钟时间,但不会对 32k 或以上的样本效率产生很大影响。然而,我们发现 8k 和 16k 的批量大小从未达到分配的剧集数的第 4 阶段。

增加批量大小可加快收敛速度

chart = RuntimeError: 获取失败
注意:我们报告的批量大小是通过时间反向传播中使用的连续转换块的数量,每个转换块包含 10 个转换,这意味着报告的 64k 批量大小实际上包含 640k 个转换。

多代理竞争与内在动机

在这项工作中,我们展示了代理人通过捉迷藏中的自我监督自动课程学习复杂策略和反策略的证据。另一种以无监督方式学习技能的方法是 内在动机,这会激励代理使用各种指标进行探索,例如模型错误或状态计数。我们在我们的环境中进行了基于计数的探索,在这种探索中,智能体保留了他们访问过的状态的明确计数,并被激励去不常访问的状态。在此设置中调整的主要建模选择是状态表示;例如,在我们的第一个基线中,我们只在状态中包含二维框位置,这样代理只会被激励与框交互并将框移动到新位置。然后我们将其与基于计数的策略进行比较,该策略将完整状态提供给玩捉迷藏的代理。

多代理
使用选定的观测值进行基于计数的探索
基于计数的探索和完整的观察

可以看出,受过捉迷藏训练的代理人定性地围绕着更多人类可解释的行为,例如建造庇护所,而受过内在动机训练的代理人以看似无方向的方式四处移动物体。此外,随着状态空间复杂性的增加,我们发现内在动机方法与其环境中的对象的有意义的交互越来越少。出于这个原因,我们相信随着环境的规模和复杂性不断增加,多代理竞争将是一种更具可扩展性的方法,可以以无人监督的方式生成与人类相关的技能。

迁移和微调作为评估

在上一节中,我们定性地比较了在捉迷藏中学习到的行为与通过内在动机学习到的行为。然而,随着环境规模的扩大,定性衡量进展的难度也会增加。在多智能体设置中,跟踪奖励是一个不充分的评估指标,因为它在指示智能体是在均匀改进还是停滞不前时可能会模棱两可。ELO 或 Trueskill 等指标可以更可靠地衡量绩效是否相对于先前的政策版本或人口中的其他政策有所改善;然而,这些指标仍然无法深入了解性能的提高是由新的适应引起的还是由改进以前学到的技能引起的。最后,使用特定于环境的统计数据(例如对象移动)也可能是模棱两可的(例如,

我们建议使用一套特定领域的智能测试,以我们认为代理最终可能获得的能力为目标。这些设置中的迁移性能可以作为表示质量或技能的定量衡量标准,我们将与基于计数的探索的预训练以及从头开始训练的基线进行比较。

对象计数 代理人被固定在原地,并被要求预测有多少对象向右或向左移动,测试代理人的记忆和对象持久性的感觉。
chart = RuntimeError: 获取失败
Lock and return  agent 必须找到盒子,锁上它,然后返回到它原来的位置,这测试了 agent 对其位置的长期记忆。
chart = RuntimeError: 获取失败
顺序锁 代理必须按照代理无法观察到的顺序锁定箱子。箱子只能以正确的顺序被锁定,所以代理必须记住它看到的箱子的状态。
chart = RuntimeError: 获取失败
蓝图构建 代理必须将箱子移动到目标位置。
chart = RuntimeError: 获取失败
避难所建设 特工必须在圆柱体周围建造避难所。
chart = RuntimeError: 获取失败

尽管捉迷藏代理在许多传输任务上表现更好,但它并没有显着提高性能或收敛时间。从它的行为来看,我们知道它具有在捉迷藏游戏中精确移动物体以搭建避难所的潜在技能;但是,当使用少量样本进行训练时,它无法在其他情况下使用此技能。

我们认为,混合迁移结果的原因在于智能体学习的技能表征相互纠缠且难以微调。随着未来环境变得更加多样化,代理人必须在更多情况下使用技能,我们相信我们将在这种评估方法中看到更多可概括的技能表示和更重要的信号。我们还开源了评估任务,作为评估我们环境中学习进度的一种方式。

令人惊讶的行为

我们已经表明,代理可以在高保真物理模拟器中学习复杂的工具使用;然而,在取得这一结果的过程中吸取了许多教训。构建环境并不容易,而且代理经常会找到一种方法以意想不到的方式利用您构建的环境或物理引擎。

箱子冲浪 由于特工通过向自己施加力来移动,所以他们可以在箱子顶部抓住箱子并将其“冲浪”到藏身者的位置。
无休止的奔跑 如果没有为离开游戏区域的代理添加明确的负奖励,在极少数情况下,隐藏者会学会拿一个盒子并无休止地带着它奔跑。
斜坡利用(隐藏者) 强化学习在寻找可利用的小机制方面非常了不起。在这种情况下,隐藏者会滥用接触物理并从游戏区域移除坡道。
斜坡利用(探索者) 在这种情况下,探索者了解到,如果他们在斜坡上以正确的角度跑到墙上,他们就可以向上发射。

详细论文