转载

OpenAI研究 学习模仿他人的想法

正在发布一种算法,该算法可以解释其他代理人也在学习的事实,并发现自利但协作的策略,如迭代囚徒困境中的针锋相对。这种算法,学习对手学习意识(LOLA),是朝着模拟其他思想的代理迈出的一小步。

LOLA 是 OpenAI 和牛津大学研究人员的合作项目,它让强化学习 (RL) 代理在更新自己的策略时考虑其他人的学习。每个 LOLA 智能体都会调整其策略,以便以有利的方式塑造其他智能体的学习。这是可能的,因为其他代理的学习取决于环境中发生的奖励和观察,而这反过来又会受到代理的影响。

这意味着 LOLA 智能体“爱丽丝”模拟另一个智能体“鲍勃”的参数更新如何依赖于它自己的策略,以及 Bob 的参数更新如何影响它自己未来的预期奖励。然后,Alice 更新自己的策略,以使其他代理(如 Bob)的学习步骤更有利于实现自己的目标。

LOLA 智能体可以在迭代 囚徒困境或 投币游戏等游戏中发现有效的互惠策略。相比之下,最先进的深度强化学习方法,如 Independent PPO,无法在这些领域学习此类策略。这些代理人通常会学会采取自私的行为,而忽略其他代理人的目标。LOLA 通过让代理人出于自身利益行事并结合他人的目标来解决这个问题。它也可以在不需要手工制定规则或建立鼓励合作的环境的情况下工作。

LOLA 的灵感来自于人们如何相互合作:人类擅长推理他们的行为如何影响其他人的未来行为,并经常发明与他人合作的方式,从而实现双赢。人类善于相互合作的原因之一是他们对其他人有一种“心智理论”的感觉,让他们想出能为合作者带来好处的策略。到目前为止,深度多智能体强化学习中还没有这种“心智理论”表征。对于最先进的深度 RL 智能体而言,另一个学习智能体与环境的一部分(比如一棵树)之间没有内在差异。

LOLA 性能的关键是包含术语:

(1个(1个,2个)2个)2个2个(1个,2个)1个2个,(∂ θ我2个的∂V _1个( θ我1个的, θ我2个的)的)吨∂ θ我1个的∂ θ我2个的∂2个V2个( θ我1个的, θ我2个的)的⋅δη ,

这里左侧显示了 Alice 的回报如何取决于 Bob 政策的变化。右侧描述了 Bob 的学习步骤如何依赖于 Alice 的策略。将这两个分量相乘实质上衡量的是爱丽丝如何改变鲍勃的学习步骤,从而导致爱丽丝的奖励增加。

这意味着当我们训练我们的智能体时,他们会尝试在对手的一个预期学习步骤之后优化他们的回报。通过这个预期的学习步骤进行区分,代理可以以增加自己回报的方式主动塑造对手的参数更新。

虽然上面的公式假设可以访问两个值函数的真实梯度和 hessian,但我们也可以使用样本估计所有相关项。特别是二阶项可以通过应用策略梯度定理来估计,这使得 LOLA 适用于任何深度强化学习设置。

LOLA 可以通过包括一个对手建模步骤来解决这个问题,在这个步骤中,我们将对手的模型拟合到观察到的轨迹——根据其他代理的行为预测他们的参数。在未来,我们希望通过从观察到的学习中推断架构和奖励来扩展这一点。

萝拉结果

LOLA 在我们可以访问其他代理的策略 (LOLA) 以及我们只能从跟踪中估计其他代理的状态 (LOLA-OM) 的情况下工作。与其他方法相比,这两种方法都获得了更多的硬币(左)并获得了更多的分数(右)。

结果

通过考虑它们对其他智能体学习过程的影响,LOLA 智能体(左)学习协作策略,而独立策略梯度(右)等其他方法在硬币游戏等环境中挣扎

LOLA 让我们训练在 硬币游戏中取得成功的智能体,在这个游戏中,红色和蓝色的两个智能体相互竞争以捡起红色和蓝色的硬币。每个代理人捡起任何硬币都会得到一分,但如果他们捡起的硬币颜色不是他们的颜色,那么另一个代理人将受到 –2 的惩罚。因此,如果两个代理都贪婪地拿起两个硬币,则每个人平均得到零分。LOLA 智能体学会主要拿起自己颜色的硬币,从而获得高分(如上所示)。

缺点

LOLA 在使用大批量和全面推出以减少方差时效果最佳。这意味着该方法是内存和计算密集型的。此外,在对手建模下,LOLA 可能会表现出不稳定性,我们希望通过未来的改进来解决这个问题。

详细论文