转载

OpenAI研究 强化学习与基于预测的奖励

我们开发了 随机网络蒸馏 (RND) ,这是一种基于预测的方法,用于鼓励强化学习代理通过好奇心探索他们的环境,这在蒙特祖玛的复仇中首次超过了人类的平均表现 。

我们开发了 随机网络蒸馏 (RND),这是一种基于预测的方法,用于鼓励强化学习代理通过好奇心探索他们的环境,这是第一次A[A]

有一个匿名的 ICLR 提交 与我们自己的工作同时进行,它超过了人类的表现,尽管程度不同。

在《蒙特祖玛的复仇》中超过了人类的平均表现 。RND 实现了最先进的性能,定期找到所有 24 个房间并解决第一级问题,而无需使用演示或访问游戏的底层状态。

 RND通过测量预测固定随机神经网络对访问状态的输出的难度来激励访问 不熟悉的状态。在不熟悉的状态下,很难猜测输出,因此奖励很高。它可以应用于任何强化学习算法,易于实现且可高效扩展。下面我们发布了一个 RND 的参考实现,它可以重现我们论文中的结果。

带有房间和梯子的 2D 游戏场景的屏幕截图

蒙特祖玛复仇的进展

对于实现预期目标的代理,它必须首先探索其环境中的可能性以及实现目标的进展。许多游戏的奖励信号提供了一个课程,即使是简单的探索策略也足以实现游戏的目标。在 引入 DQN 的开创性工作中,Montezuma's Revenge 是 唯一一款 DQN 获得人类平均得分 (4.7K) 0% 的游戏。简单的探索策略极不可能获得任何奖励,也不太可能看到该关卡 24 个房间中的几个房间。从那时起,蒙特祖玛复仇的进步就被许多人视为探索进步的代名词。

显示蒙特祖玛的复仇进度的点图

通过将 DQN 与基于计数的探索奖金相结合, 2016 年取得了重大进展  ,使代理人探索了 15 个房间,获得了 6.6K 的高分和约 3.7K 的平均奖励。从那时起,  RL 智能体得分的显着 提高 仅来自于利用  对人类 专家演示的访问权,或对模拟器底层状态的访问权 。

我们对 1024 名 rollout worker 进行了大规模 RND 实验,结果 在 9 次运行中平均回报为 10K  ,最佳平均回报为 14.5K。每次运行发现 20 到 22 个房间。此外,我们的一个规模较小但运行时间较长的实验产生了一次运行(共 10 次),获得了 17.5K 的最佳回报,对应于通过第一级并找到所有 24 个房间。下图比较了这两个实验,显示了作为参数更新函数的平均回报。

显示参数更新的平均情景回报的图表

下面的可视化显示了小规模实验在发现房间方面的进展。好奇心驱使代理人发现新房间并找到增加游戏内得分的方法,而这种外在奖励驱使它在稍后的训练中重新访问这些房间。

代理人发现的房间,意味着在整个培训过程中会偶尔返回。房间的不透明度对应于 10 个中有多少人发现了它。

好奇心驱动学习的大规模研究

在开发 RND 之前,我们与加州大学伯克利分校的合作者一起研究了没有 任何 特定环境奖励的学习。好奇心为我们提供了一种更简单的方法来教代理与任何环境交互,而不是通过我们希望与解决任务相对应的广泛设计的特定于任务的奖励函数。ALE、  Universe、  Malmo、  Gym、  Gym Retro、  Unity、  DeepMind Lab、  CommAI等项目  使大量模拟环境可供代理通过标准化接口进行交互。使用不特定于环境细节的通用奖励函数的代理可以在广泛的环境中获得基本水平的能力,从而使代理即使在没有精心设计的奖励的情况下也能够确定什么是有用的行为。

阅读论文查看代码

在标准强化学习设置中,代理在每个离散时间步向环境发送一个动作,环境通过发出下一个观察、转换奖励和情节结束指示器来响应。在我们 之前的论文中 ,我们要求环境 输出  接下来的观察。在那里,代理从其经验中学习下一状态预测器模型,并将预测错误用作内在奖励。结果,它被不可预测的事物所吸引。例如,只有当分数显示在屏幕上并且变化难以预测时,它才会发现游戏分数的变化是有回报的。智能体通常会发现与新对象的交互是有益的,因为这种交互的结果通常比环境的其他方面更难预测。

与之前的 工作类似 ,我们试图通过选择对观察的特征进行建模来避免对环境的所有方面进行建模,无论它们是否相关。令人惊讶的是,我们发现即使是 随机特征也 能很好地工作。

好奇特工做什么?

我们在 50 多个不同的环境中测试了我们的代理,并观察了从看似随机的动作到故意与环境交互的一系列能力水平。令我们惊讶的是,在某些环境中,即使游戏目标未通过外部奖励传达给它,智能体也实现了游戏目标。

训练开始时的内在奖励
首次通过关卡时内在奖励激增

Breakout 当智能体在训练早期看到新的积木配置,以及在训练数小时后首次通过关卡时,它会体验到内在奖励的峰值。

Pong 我们训练智能体同时控制两个球拍,它学会了保持球在比赛中,从而导致长时间的集会。即使在针对游戏中的 AI 进行训练时,智能体也试图延长游戏时间而不是获胜。

保龄球 与 受过直接最大化(剪裁的)外在奖励训练的代理人相比,代理人学会了更好地玩游戏。我们认为这是因为代理人被罢工后发生的难以预测的记分牌闪烁所吸引。

Mario  The intrinsic reward 与游戏在关卡中前进的目标特别吻合。智能体因发现新区域而获得奖励,因为无法预测新发现区域的详细信息。结果,代理人发现了 11 个级别,找到了秘密房间,甚至打败了老板。

嘈杂的电视问题

就像老虎机上的赌徒被机会结果吸引一样,智能体有时会因为嘈杂的电视问题而被好奇心困住。智能体在环境中找到随机性来源并不断观察它,总是会为这种转变体验到很高的内在回报。看电视播放静态噪音就是这种陷阱的一个例子。我们通过将代理放置在 Unity 迷宫环境中并使用电视播放随机频道来证明这一点。

特工在嘈杂的电视迷宫中
没有嘈杂电视的迷宫中的特工

虽然嘈杂的电视问题在理论上是一个问题,但对于像蒙特祖玛的复仇这样的很大程度上确定性的环境,我们预计好奇心会驱使代理人发现房间并与物体互动。我们尝试了几种基于好奇心的下一状态预测变体,将探索奖励与游戏得分相结合。

在这些实验中,智能体通过嘈杂的控制器控制环境,该控制器以一定的概率重复最后一个动作而不是当前动作。这种带有粘性动作的设置被 建议 作为在 Atari 等完全确定性游戏上训练代理以防止记忆的最佳实践。粘性动作使从一个房间到另一个房间的过渡变得不可预测。

随机网络蒸馏

由于下一状态预测本质上容易受到噪声电视问题的影响,因此我们确定了以下相关的预测误差来源:

  • 因素 1:预测误差很高,预测器无法从以前看到的示例中进行概括。新颖的经验对应于高预测误差。
  • 因素2:预测误差高,因为预测目标是随机的。
  • 因素 3:预测误差很高,因为缺少预测所需的信息,或者预测变量的模型类别太有限,无法适应目标函数的复杂性。

我们确定因素 1 是一个有用的错误来源,因为它量化了经验的新颖性,而因素 2 和 3 会导致嘈杂的电视问题。为了避免因素 2 和 3,我们开发了 RND,这是一种新的探索奖励,它基于 预测下一个状态下固定和随机初始化的神经网络的输出,给定下一个状态本身

Nextstate 与 Rnd 堆叠 5

直觉是预测模型在与他们接受过训练的状态相似的状态下具有低误差。特别是,代理对随机初始化神经网络输出的预测在新状态下不如在代理经常访问的状态下准确。使用合成预测问题的优点是我们可以让它是确定性的(绕过因子 2),并且在预测器可以表示的函数类中(绕过因子 3),方法是选择与目标网络具有相同架构的预测器. 这些选择使 RND 免受嘈杂电视问题的影响。

我们通过近端策略优化 ( PPO )的变体将探索奖金与外在奖励相结合 ,该变体对两个奖励流使用 两个价值头。这允许我们对不同的奖励使用不同的折扣率,并结合情景和非情景回报。 有了这种额外的灵活性,我们最好的智能体通常会在《蒙特祖玛的复仇》第一层的 24 个房间中找到 22 个房间,并且偶尔会在找到剩余的两个房间后通过第一层。同样的方法在 Venture 和 Gravitar 上获得了最先进的性能。

六图比较PPO和RND的比赛成绩

下面 RND 奖金的可视化显示了在蒙特祖玛的复仇的一集中代理第一次找到火炬的过程中的内在奖励图表。

The agent narrowly avoids a skull.Step 200Reward: 0.054

实施事项

对噪声电视问题的敏感性等全局考虑对于选择好的探索算法很重要。然而,我们发现,在我们的简单算法中正确处理看似很小的细节,可以区分从不离开第一个房间的代理和可以通过第一级的代理。为了增加训练的稳定性,我们避免了特征饱和并将内在奖励带到可预测的范围内。每次我们发现并修复错误时,我们也注意到 RND 性能的显着改进 (我们最喜欢的一个涉及不小心将数组置零,这导致外在回报被视为非偶发性;只有在对看起来可疑的周期性的外在价值函数感到困惑之后,我们才意识到这是这种情况)。即使使用概念上与先前工作类似的算法,正确处理这些细节也是实现高性能的重要组成部分。这是尽可能选择更简单算法的原因之一。

未来发展方向

我们建议未来研究的以下路径:

  • 分析不同探索方法的好处,并找到将它们结合起来的新方法。
  • 在没有奖励的情况下在许多不同的环境中训练一个好奇的代理人,并研究转移到有奖励的目标环境。
  • 调查涉及长期协调决策的全球探索。

如果您有兴趣克服这些挑战, 请申请 与我们合作!

脚注

  1. 有一个匿名的 ICLR 提交 与我们自己的工作同时进行,它超过了人类的表现,尽管程度不同。↩︎

作者

致谢

感谢那些为这些论文和这篇博文做出贡献的人:

好奇心驱动学习的大规模研究:Yuri Burda*、Harrison Edwards*、Deepak Pathak*、Amos Storkey、Trevor Darrell、Alexei A. Efros

随机网络蒸馏探索:Yuri Burda*、Harrison Edwards*、Amos Storkey、Oleg Klimov

平等贡献:

博文:Karl Cobbe、Alex Nichol、Joshua Achiam、Phillip Isola、Alex Ray、Jonas Schneider、Jack Clark、Greg Brockman、Ilya Sutskever、Ben Barry、Amos Storkey、Alexei Efros、Deepak Pathak、Trevor Darrell、Andrew Brock、Antreas Antoniou , 斯坦尼斯拉夫·贾斯特泽布斯基, 阿什莉·皮利皮辛, 贾斯汀·王

详细论文