我们开发了一种分层强化学习算法,可以学习对解决一系列任务有用的高级动作,从而可以快速解决需要数千个时间步长的任务。我们的算法在应用于一组导航问题时,会发现一组在不同方向上行走和爬行的高级动作,使代理能够快速掌握新的导航任务。
详细论文
查看代码