OpenAI研究 变分期权发现算法
我们探索了基于变分推理的期权发现方法,并做出了两项算法贡献。 首先:我们强调了变分选项发现方法和变分自动编码器之间的紧密联系,并介绍了通过强化 (VALOR) 对选项进行变分自动编码学习,这是一种从这种联系中派生出来的新方法。 在 VALOR 中,该策略将噪声分布中的上下文编码为轨迹,解码器从完整轨迹中恢复上下文。 第二:我们提出了一种课程学习方法,只要代理在当前上下文集上的表现足够强(由解码器测量),代理看到的上下文数量就会增加。 我们表明,这个简单的技巧可以稳定 VALOR 和先前的变分选项发现方法的训练,允许单个代理学习比固定上下文分布更多的行为模式。 最后,我们研究了与变分选项发现相关的其他主题,包括一般方法的基本局限性和学习选项对下游任务的适用性。