OpenAI研究 以对手学习意识学习
多代理设置在机器学习中的重要性正在迅速提高。这包括最近关于深度多智能体强化学习的大量工作,但也可以扩展到分层 RL、生成对抗网络和分散优化。在所有这些设置中,多个学习代理的存在使训练问题变得不稳定,并且经常导致不稳定的训练或不希望的最终结果。我们提出了具有对手学习意识 (LOLA) 的学习,这是一种方法,其中每个代理都会塑造环境中其他代理的预期学习。LOLA 学习规则包括一个术语,该术语解释了一个代理的策略对其他代理的预期参数更新的影响。结果表明,两个 LOLA 智能体的相遇导致针锋相对的出现,因此在重复的囚徒困境中出现合作,而独立学习则不会。在这个领域,LOLA 也获得了比 naive learner 更高的回报,并且对高阶基于梯度的方法的利用具有鲁棒性。应用于重复匹配的便士,LOLA 代理会收敛到纳什均衡。在循环赛中,我们展示了 LOLA 智能体成功地从文献中塑造了一系列多智能体学习算法的学习,从而在 IPD 上获得了最高的平均回报。我们还表明,可以使用策略梯度估计器的扩展有效地计算 LOLA 更新规则,使该方法适用于无模型 RL。因此,该方法可扩展到大参数和输入空间以及非线性函数逼近器。我们使用循环策略和对手建模将 LOLA 应用于具有嵌入式社会困境的网格世界任务。通过明确考虑其他智能体的学习,LOLA 智能体学会出于自身利益进行合作。代码在 这个 http 网址。