OpenAI研究 好奇心驱动学习的大规模研究
强化学习算法依赖于对代理人来说是外在的精心设计的环境奖励。然而,用手工设计的密集奖励来注释每个环境是不可扩展的,这激发了开发代理固有的奖励功能的需要。好奇心是一种内在的奖励函数,它使用预测误差作为奖励信号。在本文中: (a) 我们首次对纯好奇心驱动的学习进行大规模研究,即没有任何外在奖励,跨越 54 个标准基准环境,包括 Atari 游戏套件。我们的结果显示出令人惊讶的良好性能,以及内在好奇心目标与许多游戏环境中手工设计的外在奖励之间的高度一致性。(b) 我们调查了使用不同特征空间计算预测误差的效果,并表明随机特征足以满足许多流行的 RL 游戏基准测试,但学习到的特征似乎可以更好地泛化(例如超级马里奥兄弟中的新游戏关卡)。(c) 我们证明了随机设置中基于预测的奖励的局限性。游戏视频和代码在 这个 https 网址。