转载

OpenAI研究 用于分层强化学习的随机神经网络

近年来,深度强化学习取得了许多令人瞩目的成果。然而,回报稀少或视野开阔的任务继续构成重大挑战。为了解决这些重要问题,我们提出了一个通用框架,该框架首先在预训练环境中学习有用的技能,然后利用获得的技能在下游任务中更快地学习。我们的方法汇集了内在动机和分层方法的一些优势:有用技能的学习由单一代理奖励指导,其设计需要关于下游任务的领域知识非常少。然后在这些技能之上训练高级策略,显着改进探索并允许解决下游任务中的稀疏奖励。为了有效地预训练大量技能,我们将随机神经网络与信息论正则化器结合使用。我们的实验表明,这种组合可以有效地以样本高效的方式学习广泛的可解释技能,并且可以在广泛的下游任务中显着提高学习性能。

详细论文