OpenAI 研究员 2018 年夏季:最终项目
在此期间,我们已经看到了理论物理和生物工程等其他科学领域的专业知识如何产生见解,推动人工智能研究向前发展。所有 6 名研究员都撰写或参与了论文,并完成了调查新研究理念的项目,同时嵌入了 OpenAI 研究团队。
我们下一届研究员的研究项目正在进行中,我们正在选择我们的下一个队列.我们也很高兴欢迎我们的一些研究员加入OpenAI,成为我们技术人员的全职成员。
最终项目
卡尔·科布
团队: 游戏
导师:约翰·舒尔曼
卡尔·科布的社交链接

曾任职务:斯坦福大学计算机科学/人工智能本科生解决问题艺术的软件开发人员
有趣的学习:“我以前在深度强化学习方面的经验只来自个人项目。OpenAI 研究员让我能够一头扎进研究领域,在每一步都提供必要的支持。最突出的是我所获得的非凡指导。我的导师总是积极参与我的工作,分享关键的直觉并提出有用的课程更正建议。有时我变得慌乱,他们帮助我保持脚踏实地。他们帮助我更好地了解哪些想法应该追求,哪些想法应该放弃。这是一段令人兴奋的旅程,我现在感觉自己已经做好了更好的准备,可以面对这个领域的新挑战。
最终项目:创建了一个程序生成的游戏,称为CoinRun,以帮助衡量训练有素的强化学习代理如何推广到新环境。通过在不同的生成级别集上训练和测试代理,我们发现代理过度拟合到令人惊讶的大型训练集。然后,我们展示了如何通过使用更深的卷积架构以及使用监督学习中常见的技术(包括L2正则化,dropout,数据增强和批量归一化)来显着减少过拟合。
山姆·麦坎德利什
团队:安全
导师:达里奥·阿莫德伊
山姆·麦坎德利什的社交链接

曾任:斯坦福大学理论物理学博士,波士顿大学博士后研究员
有趣的学习:“OpenAI的友好和开放的文化使我能够通过向专家学习来快速熟悉各种前沿研究。我很惊讶地发现,尽管该领域进展迅速,但关于当前技术如何工作,仍有许多看似基本的问题尚未得到解答。
最终项目:研究使用大量计算硬件进行分布式神经网络训练。我们在各种机器学习任务中发现了可预测的模式,从MNIST到Dota。较小 较大 批量大小 320 10⁴ 10⁵ 10⁶ 10⁷ 10⁸ Score = 1,000 雅达利光束骑士:帕累托前线 优化步骤 处理的游戏帧 随着噪声标度的增加, 大批量在训练后期变得更加有用 。10⁴ 10⁶ 10⁸ 10 10⁴ 雅达利光束骑士:训练效率 处理的游戏帧 游戏得分 小批量训练效率最高。
达到给定分数所需的经验和培训时间之间的权衡是可以预测的。
杜一伦
团队:多智能体
导师:卡尔西克·纳拉西姆汉/伊戈尔·莫达奇
杜一伦的社交链接
乔什·迈耶
约翰内斯·奥特巴赫
团队:算法
导师:伊利亚·苏茨凯弗
约翰内斯·奥特巴赫的社交链接

曾任:理论物理博士,哈佛博士后,量子计算初创公司的应用研究员和软件工程
有趣的学习:“OpenAI研究员允许我以结构化的方式学习,推进该领域的惊人见解以及解开导致改进的因素的难度。多亏了我的导师和同事,我能够快速潜入生成模型的最新架构,有时我惊讶地发现,甚至复制当前的研究结果是多么具有挑战性。因此,我开始研究更简单的数据集来建立直觉并证伪/验证我的期望。我从奖学金中学到的主要东西是,由于问题的复杂性,对算法或方法面临的挑战有基本的了解是很重要的——正如费曼所说:“我无法创造的东西,我不理解'。
最终项目:生成模型,即学习真实世界数据集分布并允许从该分布中生成新样本的模型,正变得越来越强大。在我的项目中,我特别关注归一化流模型,该模型使用简单分布的连续变形来近似数据分布。一个更直观的类比是一块被拉伸、挤压、弯曲或其他任何东西的橡皮泥,除了它不能粘在自己身上或撕裂。由于这些属性,我能够创建和研究人工数据集,这些数据集本质上很难用这些模型近似。这些可用于对未来几代生成模型的灵活性和表现力进行基准测试。
下一步:加入OpenAI的算法团队,继续研究生成模型。
星友(理查德)宋
团队: 游戏
导师:约翰·舒尔曼
星友(理查德)宋的社交链接

曾任:加州大学伯克利分校计算机科学本科生
有趣的学习:“当涉及到大规模的强化学习和高度实验的领域时,我了解到减轻噪音是关键。在像Sonic这样的复杂数据集上,我经常会得到嘈杂的结果,我无法从中得到一个好的结论,最终我通过改进工作流程或使用更少的嘈杂环境获得了更好的结果。即使在这样的实验领域,我也学会了相信我的理论直觉,这导致了对RL中过拟合所发生的事情的很好的分析,通过样本复杂性,优化环境和其他理论思想的镜头。我认为将CS理论的概念与实验证据相结合在未来将非常有价值。此外,在研究代码方面,永远不要 Git 拉取别人的存储库!
最终项目:我们从优化和综合的角度分析了强化学习中发生哪些类型的过拟合。虽然我们的大部分分析来自观察过度拟合,但我们也分析了可能发生过度拟合的其他原因,以及优化环境中影响泛化差距的情况。我们还(与Joshua Meier和其他人一起)介绍了刺猬索尼克上某些最先进的方法的性能,包括(但不限于)生成建模和特殊架构,以及为什么它们在索尼克等大型数据集上可能会失败。
下一步:加入Google Research/Brain。
后续步骤
我们要祝贺我们的2018年夏季研究员的出色工作,并感谢他们对OpenAI的贡献。我们很高兴看到他们接下来发表的研究!
作为我们教育和吸引更多像我们研究员班这样的人的努力的一部分,我们最近开源了他们的部分入门课程。您可以通过完成我们的教程来立即开始您的 ML 教育,”在深度强化学习中旋转."旋转包括清晰的 RL 代码示例、教育练习、文档,以及将帮助您成为 RL 熟练从业者的教程。
我们2019年冬季研究员队列的申请已经结束 - 请继续关注我们在2019年晚些时候的下一次申请。