OpenAI研究 复古大赛:结果
我们的Retro Contest的第一次运行 ——探索可以从以前的经验中概括的算法的开发——现在已经完成。
尽管尝试了许多方法,但最好的结果都来自调整或扩展现有算法,例如 PPO 和 Rainbow。还有很长的路要走:训练后的最高性能是 4,692,而理论最大值是 10,000。这些结果证实了我们的 Sonic 基准测试是一个值得社区加倍努力的好问题:获胜的解决方案是通用的机器学习方法,而不是针对特定竞赛的 hack,这表明人们无法通过这个问题作弊。
在为期两个月的比赛中,有 923 个团队注册并向排行榜提交了 229 个解决方案。我们的自动评估系统对提交的算法进行了总共 4,448 次评估,相当于每个团队大约 20 次提交。参赛者在排行榜上看到了他们的分数上升,这是基于我们使用关卡编辑器创建的五个低质量关卡的测试集。您可以通过单击排行榜条目来观看代理玩这些级别之一 。

由于参赛者以分数和代理在某个级别上被测试的视频的形式获得了关于他们提交的反馈,因此他们很容易过度适应排行榜测试集。因此,我们使用完全不同的测试集进行最终评估。提交结束后,我们从前 10 名参赛者那里获取了最新提交的内容,并根据熟练的关卡设计师制作的 11 个自定义 Sonic 关卡测试了他们的代理。为了减少噪音,我们对每个级别的每个参赛者进行了三次评估,对环境使用了不同的随机种子。本次最终测评排名发生了变化,但变化幅度不大。
最高分
得分前5名的球队是:
秩 | 团队 | 分数 |
#1 | 法王 | 4692 |
#2 | 错误 | 4446 |
#3 | 中止 | 4430 |
#4 | 任何 | 4274 |
#5 | 柏拉图的学生 | 4269 |
联合 PPO 基线 | 4070 | |
联合彩虹基线 | 3843 | |
彩虹基线 | 3498 |
Dharmaraja 在比赛中名列榜首,在最终评估中保持领先; 失误 险胜 aborg ,获得第二名。前三名的队伍将获得奖杯。

所有 11 个级别的前三名团队的学习曲线如下(显示从三个运行计算的标准误差)。

对所有级别进行平均,我们可以看到以下学习曲线。

请注意, Dharmaraja 和 aborg 的初始分数相似,而 错误的 初始分数低得多。正如我们将在下面更详细地描述的那样,这两个团队从预训练的网络中进行微调(使用 PPO),而 从头开始训练 错误(使用 Rainbow DQN)。mistake的学习曲线提前结束,因为它们在 12 小时时超时。
认识获奖者






法王
Dharmaraja 是一个六人团队,包括青达、石景成、曾安祥、光大胡章、李润泽和杨宇。 Qing Da 和 Anxiang Zeng 来自中国杭州阿里巴巴搜索部门的 AI 团队。近年来,他们与 中国南京大学计算机科学系副教授Yang Yu一起研究了如何将强化学习应用于现实世界的问题,特别是在电子商务环境中。
Dharmaraja 的解决方案是联合 PPO(在我们的技术报告中描述)的变体, 并进行了一些改进。首先,它使用 RGB 图像而不是灰度图像;其次,它使用略微增强的操作空间,具有更常见的按钮组合;第三,它使用增强的奖励功能,奖励访问新状态的代理(根据屏幕的感知哈希判断)。除了这些修改之外,该团队还尝试了一些没有成功的事情: DeepMimic、通过 YOLO进行对象检测,以及一些 Sonic 特有的想法。


错误
球队失误由徐鹏和钟巧玲组成。两人都是中国北京的研究生二年级,就读于中国科学院网络数据科学重点实验室和中国科学院计算技术研究所。业余时间,彭旭喜欢打篮球,钟巧玲喜欢打羽毛球。他们最喜欢的电子游戏是魂斗罗和马里奥。
Mistake 的解决方案基于 Rainbow 基线。他们做了一些有助于提高性能的修改: n 步 Q 学习的更好的 n 值;在模型中添加了一个额外的 CNN 层,这使得训练速度变慢但效果更好;和较低的 DQN 目标更新间隔。此外,该团队尝试与 Rainbow 联合训练,但发现这实际上会损害他们的表现。

中止
Aborg 团队是 Alexandre Borghi 的个人努力。Alexandre 于 2011 年获得计算机科学博士学位后,曾在法国的不同公司工作,之后移居英国,担任深度学习研究工程师。作为视频游戏和机器学习爱好者,他将大部分空闲时间用于研究深度强化学习,这促使他参加了 OpenAI Retro Contest。
Aborg 的解决方案与 Dharmaraja 的一样,是联合 PPO 的变体,有许多改进:来自 Game Boy Advance 和 Master System Sonic 游戏的更多训练级别;不同的网络架构;微调专为快速学习而设计的超参数。在阐述最后一点时,Alexandre 注意到微调的前 150K 时间步不稳定(即性能有时会变差),因此他调整学习率来解决这个问题。除了上述变化之外,Alexandre 还尝试了几种没有奏效的解决方案:不同的优化器、 MobileNetV2、使用彩色图像等。
最佳评论
最佳写作奖颁发给写出高质量文章描述他们尝试过的方法的参赛者。
秩 | 优胜者 | 写上去 |
#1 | 迪伦·吉安 | 世界模特 |
#2 | 奥列格·穆尔克 | 探索算法、策略提炼和微调 |
#3 | 于菲利克斯 | 对每个区域的专家策略进行微调 |
现在,让我们认识一下该奖项类别的获奖者。

迪伦·吉安
迪伦目前居住在法国巴黎。