OpenAI研究 通过 Q-ensembles 探索 UCB
我们展示了如何利用一组 Q* 函数在深度强化学习中进行更有效的探索。我们建立在 bandit 设置中的成熟算法之上,并使它们适应 Q-learning 设置。我们提出了一种基于置信上限 (UCB) 的探索策略。我们的实验表明在 Atari 基准测试上有显着的进步。
我们展示了如何利用一组 Q* 函数在深度强化学习中进行更有效的探索。我们建立在 bandit 设置中的成熟算法之上,并使它们适应 Q-learning 设置。我们提出了一种基于置信上限 (UCB) 的探索策略。我们的实验表明在 Atari 基准测试上有显着的进步。