OpenAI研究 竞技自我对弈
我们发现,自我对弈允许模拟 AI 发现身体技能,如抢断、躲避、假动作、踢球、接球和扑球,而无需明确设计具有这些技能的环境。自我对弈确保环境始终是 AI 需要改进的正确难度。结合我们的 Dota 2 自我对弈结果,我们越来越有信心自我对弈将成为未来强大人工智能系统的核心部分。

我们在一系列基本游戏中设置多个模拟 3D 机器人之间的比赛,用简单的目标训练每个代理(将对手推出相扑圈,到达环的另一边同时阻止另一个代理做同样的事情,踢球入网或阻止其他智能体这样做,等等),然后分析出现的不同策略。
代理人最初会因有助于探索的行为(例如站立和前进)而获得密集奖励,这些行为最终退火为零,有利于仅因输赢而获得奖励。尽管有简单的奖励,但代理人会学习微妙的行为,如抢断、躲避、假装、踢球和接球,以及扑球。每个 agent 的神经网络策略都使用 Proximal Policy Optimization进行独立训练。
要了解复杂的行为如何通过简单的目标和竞争压力的结合而出现,让我们分析一下相扑任务。在这里,我们采用了先前工作中定义的用于训练人形机器人行走的密集奖励 ,删除了速度项,添加了与环中心的负 L2 距离,并将其作为相扑智能体的密集探索奖励。智能体最初被允许使用这个奖励在环中进行探索,然后我们慢慢地将其退火为零,这样智能体就会学习优化竞争奖励——将另一个玩家推出环——以进行剩余的训练迭代。
尽管可以设计出需要这些技能中的每一种技能的任务和环境,但这需要人类设计师的努力和独创性,并且代理的行为将受到人类设计师可以为他们提出的问题的复杂性的限制。通过数千次与自身不断改进的版本进行匹配迭代来开发代理,我们可以创建能够连续引导自身性能的 AI 系统;我们在Dota 2 项目中看到了类似的现象 ,自我对弈让我们创建了一个 RL 代理,可以在电子竞技的单人版本中击败顶级人类玩家。
迁移学习
这些代理人还展示了迁移学习,运用在一种环境中学到的技能在另一种前所未见的环境中取得成功。在一个案例中,我们让受过自我对弈相扑任务训练的智能体面对站立任务,同时受到“风”力的扰动。尽管从未见过有风的环境或观察到风力,但智能体仍设法保持直立,而使用经典强化学习训练行走的智能体会立即倒下。