OpenAI研究 多智能体系统中的学习策略表示
代理行为建模对于理解多代理系统中复杂现象的出现至关重要。代理建模的先前工作主要是特定于任务的,并且由手工工程领域特定的先验知识驱动。我们提出了一个通用学习框架,用于仅使用少量交互数据对任何多代理系统中的代理行为进行建模。我们的框架将代理建模视为表示学习问题。因此,我们构建了一个受模仿学习和代理识别启发的新目标,并设计了一种用于代理策略表示的无监督学习算法。我们凭经验证明了所提出框架在 (i) 具有挑战性的高维竞争环境中的连续控制和 (ii) 通信合作环境中的效用,