转载

OpenAI研究 研究请求 2.0

我们正在发布新一批的七个未解决的问题,这些问题是我们在 OpenAI 的研究过程中出现的。

2018 年 1 月 31 日
社区

就像我们最初的 研究请求( 产生  几篇 论文)一样,我们希望这些问题对于新人进入该领域以及从业者磨练他们的技能来说是一种有趣且有意义的方式(这也是获得的好方法 在 OpenAI工作 ) 。许多人需要发明新的想法。

热身

如果您不确定从哪里开始,这里有一些已解决的入门问题。

⭐ 训练一个 LSTM 来解决 XOR 问题:即给定一个比特序列,确定它的奇偶性。LSTM  应该消耗序列,一次一位,然后在序列末尾输出正确答案测试以下两种方法:

  • 生成随机 100,000 个长度为 50 的二进制字符串的数据集。训练 LSTM;你得到什么表现?
  • 生成包含 100,000 个随机二进制字符串的数据集,其中每个字符串的长度在 1 到 50 之间独立随机选择。训练 LSTM。它成功了吗?什么解释了差异?

⭐ 将经典贪吃蛇游戏克隆  为 健身房 环境,并使用  您选择的 强化学习算法解决它。在推特上 向我们发送代理播放的视频。您是否能够训练出赢得比赛的政策?

研究请求

⭐⭐ 滑行。将经典贪吃蛇 游戏(请参阅 slither.io获取灵感) 的多人克隆版实施并解决  为 健身房 环境。

  • 环境:有一个相当大的场地,有多条蛇;吃随机出现的水果时蛇会长大;一条蛇在与另一条蛇、自身或墙壁碰撞时死亡;当所有的蛇都死了,游戏就结束了。从两条蛇开始,然后从那里扩展。
  • 智能体:使用您 选择的 RL 算法使用自我博弈解决环境 。您需要尝试各种方法来克服自我对弈的不稳定性(这类似于人们在 GAN 中看到的不稳定性)。例如,尝试根据过去政策的分布训练您当前的政策。哪种方法效果最好?
  • 检查习得的行为:智能体是否学会了有能力地追求食物并避开其他蛇?智能体是否学会攻击、设置陷阱或联合起来对抗竞争的蛇?在推特上向我们发送学习政策的视频!

⭐⭐⭐ 分布式 RL 中的参数平均。探索参数平均方案对 RL 算法中样本复杂性 和通信量 的影响 。虽然最简单的解决方案是在每次更新时对每个工作人员的梯度进行平均,但您可以  通过独立更新工作人员然后不经常对参数进行平均来节省通信带宽在 RL 中,这可能有另一个好处:在任何给定时间,我们都会有具有不同参数的代理,这可能会导致更好的探索行为。另一种可能性是使用像 EASGD这样的算法 ,在每次更新时将部分参数组合在一起。

⭐⭐⭐ 通过生成模型在不同游戏之间迁移学习。 进行如下:

  • 为 11 个Atari游戏训练 11 个好的策略  。从每个游戏的策略生成 10,000 个轨迹,每个轨迹 1,000 个步骤。
  • 将生成模型(例如 Transformer)拟合到 10 个游戏产生的轨迹。
  • 然后在第 11 场比赛中微调该模型。
  • 您的目标是量化 10 场比赛的预训练带来的好处。模型需要多大才能使预训练有用?当第 11 场比赛的数据量减少 10 倍时,效果大小如何变化?100 倍?

⭐⭐⭐ 具有线性注意力的变形金刚。 Transformer  模型使用带有 softmax 的软注意力如果我们可以改为使用线性注意力(可以将其转换为使用快速权重的RNN ),我们可以将生成的模型用于 RL。具体来说,在巨大的上下文中使用转换器推出 RL 是不切实际的,但运行具有快速权重的 RNN 将是非常可行的。你的目标:承担任何语言建模任务;训练变压器;然后找到一种方法,使用具有不同超参数的线性注意变换器来获得每个字符/单词的相同位,而不会大量增加参数总数。只有一个警告:事实证明这可能是不可能的。但是一个可能有用的提示:与使用 softmax 的注意力相比,具有线性注意力的转换器可能需要更高维度的键/值向量,这可以在不显着增加参数数量的情况下完成。

⭐⭐⭐ 学习数据增强。 您可以使用学习到的 数据VAE 来执行“学习到的数据扩充”。首先在输入数据上训练 VAE,然后通过编码将每个训练点转换为潜在空间,然后在潜在空间中应用简单(例如高斯)扰动,然后解码回观察空间。我们可以使用这种方法来改进泛化吗?这种数据增强的一个潜在好处是它可以包括许多非线性变换,如视点变化和场景闪电变化。我们可以近似标签不变的一组变换吗?如果需要请查看 有关主题的现有 工作       一个开始的地方。

⭐⭐⭐⭐ 强化学习中的正则化。 通过实验研究(并定性解释)不同正则化方法对所选 RL 算法的影响。在有监督的深度学习中,正则化对于改进优化 和防止过度 拟合极为重要 ,有非常成功的方法,如dropout、  batch normalization和 L2 regularization然而,人们并没有从策略梯度 和 Q 学习等强化学习算法的正则化中受益 . 顺便说一句,人们通常在 RL 中使用比在监督学习中小得多的模型,因为大型模型表现更差——可能是因为它们过度适应了最近的经验。首先, 这里 有一项相关但较旧的理论研究。

⭐⭐⭐⭐⭐ 奥林匹克不平等问题的自动解决方案。 奥林匹克不等式问题很容易表达,但 解决 它们往往需要巧妙的操作。建立一个奥林匹克不等式问题的数据集,并编写一个可以解决其中大部分问题的程序。机器学习在这里是否有用尚不清楚,但您可以潜在地使用学习策略来减少分支因子。