转载

OpenAI研究 复古大赛:结果

我们的Retro Contest的第一次运行 ——探索可以从以前的经验中概括的算法的开发——现在已经完成。

2018 年 6 月 22 日
强化学习迁移学习游戏环境开源社区

尽管尝试了许多方法,但最好的结果都来自调整或扩展现有算法,例如 PPO 和 Rainbow。还有很长的路要走:训练后的最高性能是 4,692,而理论最大值是 10,000。这些结果证实了我们的 Sonic 基准测试是一个值得社区加倍努力的好问题:获胜的解决方案是通用的机器学习方法,而不是针对特定竞赛的 hack,这表明人们无法通过这个问题作弊。

Dharmaraja 团队的 AI 代理会随着时间的推移在自定义版本的 Aquatic Ruin Zone 上学习。该代理已在其他 Sonic 关卡上进行了预训练,但这是它第一次看到这个特定关卡。列出的时间是相对于挂钟时间。

在为期两个月的比赛中,有 923 个团队注册并向排行榜提交了 229 个解决方案。我们的自动评估系统对提交的算法进行了总共 4,448 次评估,相当于每个团队大约 20 次提交。参赛者在排行榜上看到了他们的分数上升,这是基于我们使用关卡编辑器创建的五个低质量关卡的测试集。您可以通过单击排行榜条目来观看代理玩这些级别之一 。

几天的排行榜分数图表

由于参赛者以分数和代理在某个级别上被测试的视频的形式获得了关于他们提交的反馈,因此他们很容易过度适应排行榜测试集。因此,我们使用完全不同的测试集进行最终评估。提交结束后,我们从前 10 名参赛者那里获取了最新提交的内容,并根据熟练的关卡设计师制作的 11 个自定义 Sonic 关卡测试了他们的代理。为了减少噪音,我们对每个级别的每个参赛者进行了三次评估,对环境使用了不同的随机种子。本次最终测评排名发生了变化,但变化幅度不大。

三个不同的人工智能在同一水平上学习。红点表示较早的剧集,而蓝点表示较晚的剧集。(从上到下,按级别得分排序:Dharmaraja、aborg 和 mistake)

最高分

得分前5名的球队是:

团队分数
#1法王4692
#2错误4446
#3中止4430
#4任何4274
#5柏拉图的学生4269
联合 PPO 基线4070
联合彩虹基线3843
彩虹基线3498

Dharmaraja 在比赛中名列榜首,在最终评估中保持领先; 失误 险胜 aborg  ,获得第二名。前三名的队伍将获得奖杯。

奖杯三 2000

所有 11 个级别的前三名团队的学习曲线如下(显示从三个运行计算的标准误差)。

学习曲线平均超过 3 次试验

对所有级别进行平均,我们可以看到以下学习曲线。

学习曲线平均超过 11 个级别和 3 个试验

请注意,  Dharmaraja 和 aborg 的初始分数相似,而 错误的 初始分数低得多。正如我们将在下面更详细地描述的那样,这两个团队从预训练的网络中进行微调(使用 PPO),而  从头开始训练 错误(使用 Rainbow DQN)。mistake的学习曲线提前结束,因为它们在 12 小时时超时。

认识获奖者

青大
史景诚
曾安祥
光大户章
李润泽
杨宇

法王

Dharmaraja 是一个六人团队,包括青达、石景成、曾安祥、光大胡章、李润泽和杨宇。 Qing Da 和 Anxiang Zeng 来自中国杭州阿里巴巴搜索部门的 AI 团队。近年来,他们与 中国南京大学计算机科学系副教授Yang Yu一起研究了如何将强化学习应用于现实世界的问题,特别是在电子商务环境中。

Dharmaraja 的解决方案是联合 PPO(在我们的技术报告中描述)的变体, 并进行了一些改进。首先,它使用 RGB 图像而不是灰度图像;其次,它使用略微增强的操作空间,具有更常见的按钮组合;第三,它使用增强的奖励功能,奖励访问新状态的代理(根据屏幕的感知哈希判断)。除了这些修改之外,该团队还尝试了一些没有成功的事情:  DeepMimic、通过 YOLO进行对象检测,以及一些 Sonic 特有的想法。

获取源代码
彭旭
钟巧玲

错误

球队失误由徐鹏和钟巧玲组成。两人都是中国北京的研究生二年级,就读于中国科学院网络数据科学重点实验室和中国科学院计算技术研究所。业余时间,彭旭喜欢打篮球,钟巧玲喜欢打羽毛球。他们最喜欢的电子游戏是魂斗罗和马里奥。

Mistake 的解决方案基于 Rainbow 基线。他们做了一些有助于提高性能的修改: n 步 Q 学习的更好的 n 值;在模型中添加了一个额外的 CNN 层,这使得训练速度变慢但效果更好;和较低的 DQN 目标更新间隔。此外,该团队尝试与 Rainbow 联合训练,但发现这实际上会损害他们的表现。

获取源代码
亚历山大·博吉

中止

Aborg 团队是 Alexandre Borghi 的个人努力。Alexandre 于 2011 年获得计算机科学博士学位后,曾在法国的不同公司工作,之后移居英国,担任深度学习研究工程师。作为视频游戏和机器学习爱好者,他将大部分空闲时间用于研究深度强化学习,这促使他参加了 OpenAI Retro Contest。

Aborg 的解决方案与 Dharmaraja 的一样,是联合 PPO 的变体,有许多改进:来自 Game Boy Advance 和 Master System Sonic 游戏的更多训练级别;不同的网络架构;微调专为快速学习而设计的超参数。在阐述最后一点时,Alexandre 注意到微调的前 150K 时间步不稳定(即性能有时会变差),因此他调整学习率来解决这个问题。除了上述变化之外,Alexandre 还尝试了几种没有奏效的解决方案:不同的优化器、  MobileNetV2、使用彩色图像等。

获取源代码

最佳评论

最佳写作奖颁发给写出高质量文章描述他们尝试过的方法的参赛者。

优胜者写上去
#1迪伦·吉安世界模特
#2奥列格·穆尔克探索算法、策略提炼和微调
#3于菲利克斯对每个区域的专家策略进行微调

现在,让我们认识一下该奖项类别的获奖者。

迪伦·吉安

迪伦·吉安

迪伦目前居住在法国巴黎。他是巴黎 42 学校软件开发专业的学生 。 一年半前,他观看了一段遗传算法学习如何玩马里奥的视频后,开始接触机器学习 。这段视频激发了他的兴趣,让他想更多地了解这个领域。他最喜欢的电子游戏是塞尔达黄昏公主和魔兽世界。

奥列格·穆尔克

奥列格·穆尔克

Oleg Mürk 来自旧金山湾区,但最初来自爱沙尼亚的塔尔图。白天,他作为 Planet OS 的首席架构师从事分布式数据处理系统方面的工作。在空闲时间,他在租用 GPU 以在 TensorFlow 中运行深度学习实验时“烧了太多钱”。Oleg 喜欢旅行、徒步旅行和风筝冲浪,并打算在未来 30 年内最终学会冲浪。他最喜欢的电脑游戏(也是他唯一完成的一款)是 Wolfenstein 3D。他的总体规划是在未来 20 年内开发一个自动化程序员,然后退休。

于菲利克斯

于菲利克斯

Felix 是一位居住在香港的企业家。他第一次接触机器学习是在一个学校项目中,他应用 PCA 分析股票数据。经过几年的创业,他于 2015 年底进入 ML;他已成为一名 活跃的 Kaggler  ,并参与了多个 计算机视觉和强化学习方面的副项目 。

最佳辅助材料

这场比赛带来的最好的事情之一就是看到参赛者互相帮助。许多人为其他参赛者贡献了入门指南、有用的脚本和故障排除支持。

特里斯坦·索科尔

特里斯坦·索科尔

我们的最佳支持材料奖的获得者是 Tristan Sokol,他  在整个比赛期间 撰写了许多 有用的 博客 文章,并制作了一个工具 来可视化通过 Sonic 关卡的轨迹。

白天,Tristan 为 Square 工作,帮助建立他们的开发者平台;晚上,他是设计师和企业家。这是他第一次做任何 AI/ML,也是他第一次将 Python 用于任何实际用例。展望未来,Tristan 将尝试使用 TensorFlow.js 做出很酷的事情。每当他不在电脑前时,特里斯坦都可能在他奥克兰的后院看着植物生长。

经验教训和后续步骤

竞赛有可能彻底改变关于什么最有效的普遍共识,因为参赛者将尝试各种不同的方法,而最好的方法将获胜。在这场特殊的比赛中,表现最好的方法与我们 OpenAI 在比赛前发现的成功方法并没有根本不同。

我们很高兴看到一些使用迁移学习的顶级解决方案;从训练层面进行微调。然而,我们惊讶地发现一些排名靠前的提交只是我们基线算法的调整版本。这强调了超参数的重要性,尤其是在 Rainbow DQN 等强化学习算法中。

我们计划在几个月后开始另一场比赛。我们希望并期望一些更另类的方法能够在第二轮中取得成功,因为人们知道会发生什么,并且已经开始深入思考强化学习中的快速学习和泛化问题。我们到时候见,我们期待看到您的创新解决方案在记分牌上攀升。

要学得快