转载

OpenAI研究 健身房复古

我们发布了Gym Retro的完整版本 ,这是一个用于游戏强化学习研究的平台。这使我们公开发布的游戏数量从大约 70 款 Atari 游戏和 30 款 Sega 游戏增加到 1,000 多款支持各种支持模拟器的游戏。我们还发布了用于向平台添加新游戏的工具。

我们使用 Gym Retro 对 RL 算法进行研究并研究泛化。之前的 RL 研究主要集中在优化代理以解决单个任务。借助 Gym Retro,我们可以研究在概念相似但外观不同的游戏之间进行泛化的能力。

此版本包括来自 Sega Genesis 和 Sega Master System 以及任天堂的 NES、SNES 和 Game Boy 游戏机的游戏。它还包括对 Sega Game Gear、Nintendo Game Boy Color、Nintendo Game Boy Advance 和 NEC TurboGrafx 的初步支持。一些已发布的游戏集成,包括 data/experimental Gym Retro 文件夹中的那些游戏,处于测试状态——请试用它们,如果您遇到任何错误,请告诉我们。 由于涉及的更改规模较大,因此代码暂时仅在分支上可用 。为了避免破坏参赛者的代码,我们不会在比赛结束之前合并分支。

正在进行的 Retro Contest  (几周后结束!)和我们最近的 技术报告 关注的是更容易在同一游戏(Sonic The Hedgehog™)的不同级别之间进行概括的问题。完整的 Gym Retro 数据集进一步推动了这一想法,使研究不同游戏之间更难的泛化问题成为可能。数据集的规模和单个游戏的难度使其成为一项艰巨的挑战,我们期待在明年分享我们的研究进展。我们也希望 Retro Contest 参与者开发的一些解决方案可以扩展并应用于完整的 Gym Retro 数据集。

集成工具


我们还发布了用于集成新游戏的工具。如果您拥有游戏的 ROM,此工具可让您轻松创建保存状态、查找内存位置以及设计强化学习代理随后可以解决的场景。我们  为希望添加对新游戏的支持的人们编写了集成商指南。

该集成工具还支持录制和播放将所有按钮输入保存到游戏中的电影文件。这些文件很小,因为它们只需要开始状态和按钮按下顺序,而不是存储输出的每一帧。像这样的电影文件对于可视化您的强化学习代理正在做什么以及存储人工输入以用作训练数据非常有用。



奖励耕作

在开发 Gym Retro 时,我们发现了许多游戏示例,在这些游戏中,智能体学习耕作以获得奖励(定义为游戏分数的增加),而不是完成隐含的任务。在上面的片段中,  Cheese Cat-Astrophe(左) 和 Blades of Vengeance(右)中的角色 陷入了无限循环,因为他们能够通过这种方式快速累积奖励。这突出了我们之前讨论过的一个 现象 :我们赋予当代强化学习算法的相对简单的奖励函数,例如通过最大化游戏中的分数,可能会导致不良行为。



对于具有密集(频繁和增量)奖励的游戏,其中大部分困难来自需要快速反应时间,强化学习算法(如 PPO)做得很好。

在像 Gradius(右图)这样的游戏中,你会为你射击的每个敌人获得积分,因此很容易获得奖励并开始学习。在这样的游戏中生存取决于你躲避敌人的能力,这对强化学习算法来说不是问题,因为它们一次玩一帧游戏。

对于奖励稀少或需要规划超过几秒的未来的游戏,现有算法会遇到困难。Gym Retro 数据集中的许多游戏都有稀疏的奖励或需要规划,因此处理完整的数据集可能需要尚未开发的新技术。