OpenAI研究 通过元强化学习学习探索的一些思考
我们考虑元强化学习中的探索问题。建议使用两种新的元强化学习算法:E-MAML 和 E-RL²。结果在我们称为“疯狂世界”的新环境和一组迷宫环境中呈现。我们展示了 E-MAML 和 E-RL² 在探索很重要的任务上提供了更好的性能。
我们考虑元强化学习中的探索问题。建议使用两种新的元强化学习算法:E-MAML 和 E-RL²。结果在我们称为“疯狂世界”的新环境和一组迷宫环境中呈现。我们展示了 E-MAML 和 E-RL² 在探索很重要的任务上提供了更好的性能。