转载

OpenAI 研究员 2018 年夏季：最终项目

在此期间，我们已经看到了理论物理和生物工程等其他科学领域的专业知识如何产生见解，推动人工智能研究向前发展。所有 6 名研究员都撰写或参与了论文，并完成了调查新研究理念的项目，同时嵌入了 OpenAI 研究团队。

我们下一届研究员的研究项目正在进行中，我们正在选择我们的下一个队列.我们也很高兴欢迎我们的一些研究员加入OpenAI，成为我们技术人员的全职成员。

最终项目

卡尔·科布

团队：游戏

导师：约翰·舒尔曼

卡尔·科布的社交链接

曾任职务：斯坦福大学计算机科学/人工智能本科生解决问题艺术的软件开发人员

有趣的学习：“我以前在深度强化学习方面的经验只来自个人项目。OpenAI 研究员让我能够一头扎进研究领域，在每一步都提供必要的支持。最突出的是我所获得的非凡指导。我的导师总是积极参与我的工作，分享关键的直觉并提出有用的课程更正建议。有时我变得慌乱，他们帮助我保持脚踏实地。他们帮助我更好地了解哪些想法应该追求，哪些想法应该放弃。这是一段令人兴奋的旅程，我现在感觉自己已经做好了更好的准备，可以面对这个领域的新挑战。

最终项目：创建了一个程序生成的游戏，称为CoinRun，以帮助衡量训练有素的强化学习代理如何推广到新环境。通过在不同的生成级别集上训练和测试代理，我们发现代理过度拟合到令人惊讶的大型训练集。然后，我们展示了如何通过使用更深的卷积架构以及使用监督学习中常见的技术（包括L2正则化，dropout，数据增强和批量归一化）来显着减少过拟合。

最后一篇博文

下一步：加入OpenAI的游戏团队，继续研究RL中的泛化。

山姆·麦坎德利什

团队：安全

导师：达里奥·阿莫德伊

山姆·麦坎德利什的社交链接

曾任：斯坦福大学理论物理学博士，波士顿大学博士后研究员

有趣的学习：“OpenAI的友好和开放的文化使我能够通过向专家学习来快速熟悉各种前沿研究。我很惊讶地发现，尽管该领域进展迅速，但关于当前技术如何工作，仍有许多看似基本的问题尚未得到解答。

最终项目：研究使用大量计算硬件进行分布式神经网络训练。我们在各种机器学习任务中发现了可预测的模式，从MNIST到Dota。

达到给定分数所需的经验和培训时间之间的权衡是可以预测的。

较小较大批量大小 320

10⁴10⁵10⁶10⁷10⁸Score = 1,000雅达利光束骑士：帕累托前线优化步骤处理的游戏帧随着噪声标度的增加，大批量在训练后期变得更加有用。

10⁴10⁶10⁸1010⁴雅达利光束骑士：训练效率处理的游戏帧游戏得分小批量训练效率最高。

101010⁴10⁵1010⁴雅达利光束骑士：训练速度优化步骤游戏得分大批量训练速度最快。

最后一篇博文

下一步：加入OpenAI的安全团队，继续研究“人工智能科学”。

杜一伦

团队：多智能体

导师：卡尔西克·纳拉西姆汉/伊戈尔·莫达奇

杜一伦的社交链接

曾任：麻省理工学院本科生

有趣的学习：“我发现，如果你认为一个想法应该可行，那么下定决心并不断推动它是很重要的。早期，我发现我们训练基于能量的模型和GAN训练的方式之间有一个很好的联系。基于这种联系和模型的灵活性，我想让模型工作，但在接下来的两个半月里，我尝试的所有东西都在 CIFAR-10 上被垃圾了。后来，只要添加一个重播缓冲区，我的样本突然变得相当不错。

最终项目：我的第一个项目是探索如何将动力学知识整合到深度强化学习中。我探索了将从视频和以前环境中学到的动态信息整合和转移到新环境中的方法。我还探索并开发了一种新的架构，以实现更好的长期物理预测。

我的第二个项目是探索如何扩展和稳定基于能量的模型的训练。通过这些技巧，我发现基于能量的模型比其他最先进的似然模型生成的样本要好得多。我发现基于能量的模型表现出良好的似然模型，并且能够对测试CIFAR-10样品进行上漆和恢复。我进一步发现，基于能量的模型泛化得很好，显示出最先进的分布外泛化、组合能力和较低的长期轨迹预测误差。

下一步：回到麻省理工学院完成本科学习。

乔什·迈耶

团队：游戏

导师：约翰·舒尔曼

Josh Meier 的社交链接

曾任：哈佛大学化学与计算机科学本科生

有趣的学习：“我了解到，通过巧妙地结合各种前沿思想，可以取得重大进展。例如，在我的项目中，我结合了三个最近的OpenAI发现，以在长期存在的RL传输问题上取得进展：微调语言模型，扩展变压器网络以及使用PPO推进RL。

最终项目：众所周知，RL 代理在任务之间传递知识时遇到了困难。在我的项目中，我发现预先训练神经网络来模拟环境可以提高样本效率并更好地跨任务传输。为此，我们在无监督观察上预训练了一个大型生成模型，然后使用 PPO 根据政策微调模型。

下一步：搬到纽约加入Facebook AI Research。

约翰内斯·奥特巴赫

团队：算法

导师：伊利亚·苏茨凯弗

约翰内斯·奥特巴赫的社交链接

曾任：理论物理博士，哈佛博士后，量子计算初创公司的应用研究员和软件工程

有趣的学习：“OpenAI研究员允许我以结构化的方式学习，推进该领域的惊人见解以及解开导致改进的因素的难度。多亏了我的导师和同事，我能够快速潜入生成模型的最新架构，有时我惊讶地发现，甚至复制当前的研究结果是多么具有挑战性。因此，我开始研究更简单的数据集来建立直觉并证伪/验证我的期望。我从奖学金中学到的主要东西是，由于问题的复杂性，对算法或方法面临的挑战有基本的了解是很重要的——正如费曼所说：“我无法创造的东西，我不理解'。

最终项目：生成模型，即学习真实世界数据集分布并允许从该分布中生成新样本的模型，正变得越来越强大。在我的项目中，我特别关注归一化流模型，该模型使用简单分布的连续变形来近似数据分布。一个更直观的类比是一块被拉伸、挤压、弯曲或其他任何东西的橡皮泥，除了它不能粘在自己身上或撕裂。由于这些属性，我能够创建和研究人工数据集，这些数据集本质上很难用这些模型近似。这些可用于对未来几代生成模型的灵活性和表现力进行基准测试。

下一步：加入OpenAI的算法团队，继续研究生成模型。

星友（理查德）宋

团队：游戏

导师：约翰·舒尔曼

星友（理查德）宋的社交链接

曾任：加州大学伯克利分校计算机科学本科生

有趣的学习：“当涉及到大规模的强化学习和高度实验的领域时，我了解到减轻噪音是关键。在像Sonic这样的复杂数据集上，我经常会得到嘈杂的结果，我无法从中得到一个好的结论，最终我通过改进工作流程或使用更少的嘈杂环境获得了更好的结果。即使在这样的实验领域，我也学会了相信我的理论直觉，这导致了对RL中过拟合所发生的事情的很好的分析，通过样本复杂性，优化环境和其他理论思想的镜头。我认为将CS理论的概念与实验证据相结合在未来将非常有价值。此外，在研究代码方面，永远不要 Git 拉取别人的存储库！

最终项目：我们从优化和综合的角度分析了强化学习中发生哪些类型的过拟合。虽然我们的大部分分析来自观察过度拟合，但我们也分析了可能发生过度拟合的其他原因，以及优化环境中影响泛化差距的情况。我们还（与Joshua Meier和其他人一起）介绍了刺猬索尼克上某些最先进的方法的性能，包括（但不限于）生成建模和特殊架构，以及为什么它们在索尼克等大型数据集上可能会失败。

下一步：加入Google Research/Brain。

后续步骤

我们要祝贺我们的2018年夏季研究员的出色工作，并感谢他们对OpenAI的贡献。我们很高兴看到他们接下来发表的研究！

作为我们教育和吸引更多像我们研究员班这样的人的努力的一部分，我们最近开源了他们的部分入门课程。您可以通过完成我们的教程来立即开始您的 ML 教育，”在深度强化学习中旋转."旋转包括清晰的 RL 代码示例、教育练习、文档，以及将帮助您成为 RL 熟练从业者的教程。

我们2019年冬季研究员队列的申请已经结束 - 请继续关注我们在2019年晚些时候的下一次申请。

OpenAI博客

OpenAI 研究员 2018 年夏季：最终项目

最终项目

卡尔·科布

团队：游戏

导师：约翰·舒尔曼

卡尔·科布的社交链接

山姆·麦坎德利什

团队：安全

导师：达里奥·阿莫德伊

山姆·麦坎德利什的社交链接

达到给定分数所需的经验和培训时间之间的权衡是可以预测的。

杜一伦

团队：多智能体

导师：卡尔西克·纳拉西姆汉/伊戈尔·莫达奇

杜一伦的社交链接

乔什·迈耶

团队：游戏

导师：约翰·舒尔曼

Josh Meier 的社交链接

约翰内斯·奥特巴赫

团队：算法

导师：伊利亚·苏茨凯弗

约翰内斯·奥特巴赫的社交链接

星友（理查德）宋

团队：游戏

导师：约翰·舒尔曼

星友（理查德）宋的社交链接

后续步骤

相关文章

本文目录

标签

近期评论

OpenAI 研究员 2018 年夏季：最终项目

最终项目

卡尔·科布

团队： 游戏

导师：约翰·舒尔曼

卡尔·科布的社交链接

山姆·麦坎德利什

团队：安全

导师：达里奥·阿莫德伊

山姆·麦坎德利什的社交链接

达到给定分数所需的经验和培训时间之间的权衡是可以预测的。

杜一伦

团队：多智能体

导师：卡尔西克·纳拉西姆汉/伊戈尔·莫达奇

杜一伦的社交链接

乔什·迈耶

团队： 游戏

导师：约翰·舒尔曼

Josh Meier 的社交链接

约翰内斯·奥特巴赫

团队：算法

导师：伊利亚·苏茨凯弗

约翰内斯·奥特巴赫的社交链接

星友（理查德）宋

团队： 游戏

导师：约翰·舒尔曼

星友（理查德）宋的社交链接

后续步骤

相关文章

本文目录

标签

近期评论

团队：游戏

团队：游戏

团队：游戏