我们的第二期OpenAI研究员已经结束,每个研究员在6个月的学徒期中从机器学习初学者到核心OpenAI贡献者。我们目前正在滚动审查下一轮OpenAI研究员2019年夏季的申请。
在此期间,我们已经看到了古典音乐、统计学和数学等其他科学领域的专业知识如何产生洞察力,推动人工智能研究向前发展。所有 6 位研究员都有完成 项目 调查一个注意。 研究 想法同时嵌入到OpenAI研究团队中。
我们也很高兴欢迎所有 6 名秋季研究员加入 OpenAI 成为我们技术人员的全职成员!
最终项目
克里斯汀·佩恩
团队:语言
克里斯汀·佩恩的社交链接

曾任角色:钢琴家有趣的学习:“研究员计划提供了自由和支持的完美平衡。我喜欢花前两个月的时间阅读论文并学习实施它们,我真的很感激有一位导师帮助我挑选最好的论文或想法来追求。我也能够自己工作并尝试不同的想法,但是当我遇到困难或需要建议时,亚历克和团队中的其他人总是非常慷慨地提供他们的时间。在2019年初,我们被要求思考“我需要做些什么才能使我的工作成为我生命中最好的工作?对我来说,答案的很大一部分是在OpenAI工作,作为这样一个独特的才华横溢和积极进取的团队的一部分。最终项目:我创建了 MuseNet,这是一个基于 GPT-2 动力的相同变压器架构的 MIDI 音乐模型。MuseNet生成2-4分钟的作品,具有许多不同的音乐风格。为此,我从网络上收集了数十万个 MIDI 文件,尝试了不同的标记化方案,开发了一种基于特定风格或作曲家来调节样本的方法,并开发了一个共同作曲家工具来实现人类/人工智能的联合作曲。
下一步:加入OpenAI的语言团队,致力于改进MuseNet并与音乐家合作。
雅各布·希尔顿
团队:强化学习
雅各布·希尔顿的社交链接

以前的角色:定量研究员/交易员简街,利兹大学数学博士。有趣的学习:“研究员计划是对机器学习研究的绝佳介绍。这很紧张——有点像我博士的第一年浓缩成六个月。在精心策划的论文和编程练习课程之后,将前几个月留出时间来学习,这让我重新焕发了活力。同样有价值的是进行我的第一个机器学习研究项目,包括所有不可避免的错误开始和失败的实验。在整个过程中,我周围都是渴望与我一起思考想法的专家,我的导师不可或缺的指导帮助磨练了我的研究直觉,并使我的项目保持在正轨上。最终项目:我研究了如何在强化学习中进行偏差-方差权衡。强化学习算法有几个超参数,可以看作是在偏差(系统误差)和方差(随机误差)之间进行权衡。例如,贴现率控制对短期奖励的偏差量,这些奖励往往具有较小的方差。我开发了一种通过直接测量梯度的偏差和方差来选择这些超参数的通用方法。该方法也适用于强化学习之外涉及随机梯度下降的其他上下文。
偏差和方差测量币跑代理培训使用聚丙烯酸.较低的贴现率通常会产生较低的方差梯度,但随着训练的继续和代理学会对其行为的长期影响进行建模,这些梯度变得越来越偏颇。下一步:加入OpenAI的RL团队,探索新的研究方向,例如RL的可解释性。
托多尔·马尔科夫
团队:多智能体
托多尔·马尔科夫的社交链接

曾任职务:Blend的软件工程师;斯坦福大学符号系统学士学位和统计学硕士学位。有趣的学习:“研究员计划在提供深度学习和强化学习研究的当前状态方面都很棒,也让我获得了在该领域进行研究的实践经验。指导方面也是一个关键的组成部分,它对开始建立研究品味非常有帮助。最终项目:我致力于评估多智能体环境中的技能出现,方法是创建多个评估任务,并测试在多智能体环境中训练的代理必须学习这些评估任务时是否会发生迁移学习。我还试图评估观察到的转移中有多少是由在多智能体环境中学习的有用行为引起的,有多少是由学习的有用的心理表征引起的。下一步:加入OpenAI的多智能体团队,继续致力于迁移学习。
陈旭东
团队:算法
马克·陈的社交链接

曾任职务:量化交易员有趣的学习:“研究员计划为我提供了一条结构化且有效的途径,让我成为一名高效的人工智能研究人员。伊利亚和亚历克总是抽出时间进行指导,并帮助我完善我的想法。以Ilya的热情,很难不对生成模型研究的未来感到兴奋!最终项目:我致力于缩放图像转换器以生成高分辨率的相干图像。首先,我探索了多尺度架构的空间,它可以更快地进行训练和推理。接下来,我专注于通过流水线模型并移植它们以在 TPU 上运行来扩展 GPU 内存限制。最后,我参与了一个团队的努力,使用这些大比例模型来了解生成预训练学习的表示如何帮助我们解决下游监督图像任务。下一步:加入OpenAI的算法团队,继续研究图像转换器。
张磊
团队:机器人
张磊的社交链接

曾任职务:软件开发人员;多伦多大学编码与信息理论博士。有趣的学习:“研究员计划非常适合让来自另一个技术领域的研究人员了解最新的深度学习技术。指导是我成长为人工智能研究人员的一个重要因素。我一直觉得我可以讨论想法,并收到了很多反馈,帮助校准我的想法。我在深度强化学习、元学习和解决机器人技术现实问题方面的经验无疑塑造了我的研究兴趣,我期待着在未来的研究中探索它们。最终项目:我研究了一个传输指标,该指标可以预测在物理机器人上部署时在模拟中训练的RL策略的性能。虽然模拟训练具有高度可扩展性和效率,但模拟器并不是完美的模型,策略在现实世界中通常表现不佳。传输指标不需要在物理机器人上重复推出。它通过预测哪个策略和培训过程将导致更好的实际性能来帮助解决模拟到真实的传输问题。下一步:加入OpenAI的机器人团队,继续致力于改善从模拟到现实的转移。
米哈伊尔·巴甫洛夫
团队:硬件
米哈伊尔·巴甫洛夫的社交链接

以前的角色:软件开发人员有趣的学习:“研究员计划让我熟悉了机器学习研究领域。我认为基于课程的学习和指导是该计划的两个非常重要的方面,它帮助我有效地进行研究。我还了解到,做研究是相当具有挑战性的——并非所有想法都像你期望的那样工作,但如果你继续提出假设并一次检查一件事,最终你会找到一个有希望的方向并获得好的结果。最终项目:我们研究了学习深度神经网络中的稀疏模式的技术,以及稀疏性中的结构如何影响参数效率。我们开发了一种用于学习稀疏性的附加修剪方法,在训练期间,我们几乎没有添加和修剪权重块的循环。专门设计的用于块稀疏矩阵乘法的内核和这种加性修剪方法使我们能够探索以前无法实现的更多样化的拓扑。我们表明,在相同的参数预算下,稀疏模型比密集网络参数效率更高,损失更低。下一步:加入OpenAI的硬件团队,继续研究神经网络中的稀疏性。
后续步骤
我们要祝贺我们的2018年秋季研究员的杰出工作,并感谢他们对OpenAI的贡献。我们很高兴看到他们的研究继续进行!如果您想从初学者转变为产生世界级的 ML 贡献,请考虑从 2019 年 <> 月开始申请我们的下一轮 OpenAI 研究员。我们目前正在接受申请并滚动审查,因此应用早!
作为我们努力教育更多像我们研究员班这样的人的一部分,我们最近开源了他们的部分入门课程。您可以通过完成我们的教程来立即开始您的 ML 教育,”在深度强化学习中旋转."在深度RL中旋转包括RL代码的示例,教育练习,文档,以及将帮助您成为 RL 熟练从业者的教程。