转载

OpenAI 学者 2021:最终项目

我们很自豪地宣布,2021 届 OpenAI 学者 已经完成了我们为期六个月的指导计划,并在 OpenAI 的资助和支持下完成了一个开源研究项目。

我们的学者与创建了 GPT-3 和 DALL·E 的领先 OpenAI 研究人员一起探索了 AI 安全、对比学习、生成建模、缩放定律、自动编码多目标任务、测试时间计算、NLP 分割策略和总结等主题来自人类的反馈。

为了结束该计划,我们的九位学者分享了他们的工作以及学者计划如何影响他们的职业生涯。在下面阅读有关他们每个人及其项目的更多信息。

Sam Altman 介绍 Openai Scholars Demo Day 2021


克里斯蒂娜·金

导师:杰里·特沃雷克

Christina Kim 的社交链接

语言迁移学习的比例定律

之前,我是 Sourceress 的创始工程师,在那里我为我们的机器学习管道和人在环标记系统构建了基础设施。我的背景是软件工程和生产机器学习。基于 OpenAI 最近在缩放定律方面的工作,我的项目探索了当我们改变模型大小和数据集大小时,在不同语言之间进行迁移时,英语预训练有多大帮助。我发现 a) 预训练英语模型在学习德语、然后是西班牙语、最后是中文时帮助最大,b) 从英语到中文、德语和西班牙语的迁移在参数、数据和计算方面可预测。
曾任职务:  Sourceress 创始工程师、Recurse Center 研究员、Memebox 软件工程师
有趣的学习:  “我对开始深度学习研究的人的建议是花时间理解基础论文中的见解,并记住该领域仍然相对较新。个人有很大的空间可以产生巨大的影响。”

丹妮尔少尉

导师:吴杰夫

Danielle Ensign 的社交链接

意见模型中的反馈循环

我有软件开发、人工智能公平和 VR 游戏开发的背景。我对学者计划很感兴趣,因为它可以加强我的研究技能,向该领域的其他人才学习,并进入行业研究或工程职位。我的项目是探索性的,从深度学习的背景下调查之前关于意见建模的工作。随着这些模型生成越来越多的文本,了解它们对观点生态系统和未来模型的影响非常重要。此外,我调查了当模型根据先前模型的输出进行迭代训练时会发生什么。
以前的职位:  ITHAKA、Brighten AI 和 Phylliida 的软件工程师
有趣的学习:  “如果可以的话,花几个月的时间仔细学习 2019 年的fast.ai 课程(第 1 部分和第 2 部分)、Andrew Ng 在 Coursera 上的深度学习课程、David Silver 的RL 课程Spinning Up in Deep RL. 如果您没有统计学背景,那么在这方面打下更坚实的基础也会很有用。这将使您在学习如何进行富有成效的研究方面抢占先机,因为您需要花费更少的时间来学习核心概念。此外,如果您还没有,请尝试在 pytorch 中从头开始实现一些论文。选择具有现有实现的旧论文,以便在遇到困难时可以参考这些实现。看看你是否可以通过应用后来一篇论文中的想法来改进这篇论文。这个过程会让你更好地了解深度学习研究是什么样的。”

埃莉·基塔尼迪斯

导师:Pranav Shayam

Ellie Kitanidis 的社交链接

对比语言编码

我的背景是物理学,专注于暗能量、暗物质和宇宙的大尺度结构。对于我的项目,我使用纯对比目标预训练了一个语言表示模型。与使用更传统的语言建模目标进行预训练的模型相比,我对此类模型的通用性和可扩展性感兴趣。我也很好奇哪些因素会影响对比语言编码器的性能。在这次演讲中,我介绍了我们的方法和一些初步结果。
以前的角色: 加州大学伯克利分校物理学博士
有趣的学习:  “在 COVID-19 期间进行职业转变令人望而生畏,但该计划为我创造了完美的学习环境,获得实践经验并在该领域进行自我定位。与我的导师和 OpenAI 的其他人的讨论让我接触到在教科书中找不到的专家见解和直觉。然而,我发现的最重要的事情是我非常喜欢做人工智能研究。我计划继续朝这个方向发展我的职业生涯。”

乔纳森沃德

导师:约翰舒尔曼

乔纳森·沃德的社交链接

大规模奖励建模

我加入了学者计划,以构建能够更好地理解人们真正看重什么的计算机系统。我住在华盛顿特区,最近,我真的很喜欢用 K'nex 建造奇妙的装置。我最近在 OpenAI 的工作表明,根据人类反馈训练的奖励模型可以支持强化学习。我的项目表明,奖励模型可以根据从网站提取的大规模结构化反馈进行训练。
曾任职务:  Sisu Data 的全栈软件工程师,Rigetti Computing 的量子工程师和数据工程师
有趣的学习:  “我对想加入的人的建议:做开源项目!找到您能想到的最简单有趣的想法并构建它!”

Kudzo Ahegbebu

导师:威廉·格斯

Kudzo Ahegbebu 的社交链接

表征图结构问题的测试时间计算

我是一名具有应用物理学和航空航天背景的软件工程师。我的演讲探讨了在许多领域中利用测试时间计算的模型的普遍性,包括自回归变换器、深度平衡模型和图形神经网络。在其中,我问:鉴于训练计算预算有限的限制,小型自适应模型是否可以利用测试时间计算来克服可学习参数数量较少的障碍?最后,我们提出了一些机制,这些机制有望降低计算成本并提高图神经网络的性能。
以前的角色:  Facebook 和 Genentech 的软件工程师
有趣的学习:  “学者计划让我有信心去探索深度学习兴趣和研究的新途径,并提高能力的衡量标准,这样我就可以更加清晰、高效和道德成熟地开展工作。它也重新点燃了我希望在未来继续培养的潜在研究兴趣。”

杨美腿

导师:Gabriel Goh

Legg Yeung 的社交链接

用 SET 纸牌游戏打破对比模型

我接受过正式的数据科学家和架构师培训,但我改变了自己的职业生涯,因为人工智能对我们的环境的影响比传统行业高得多,而且这个领域有很多有趣的研究问题。在我的项目中,我扩展了著名的纸牌游戏“SET”来研究向量表示维数与任务组成之间的关系。我发现 X 参数的非对比模型可以解决 2X+ 参数的对比模型无法解决的问题。使用大小为 16/32/64/128/256/512 的向量表示,对比模型可以学到什么?什么不是?
曾任职务: 微软研究院 AI 驻地研究员、Autodesk 机器学习实习生、Agari Data 实习数据科学家、加州大学伯克利分校教员
有趣的学习:  “我带着一些兴趣来到这个项目(推理、组合、多模式)。在将这些兴趣具体化为具体的研究问题和建议方面,我的导师帮助了我很多。我们探索了多个方向并不断迭代,直到我们看到有希望的东西。这个过程很激烈,但教训是值得的。”

萨姆巴法

导师:Arvind Neelakantan

Sam Gbafa 的社交链接

单词到字节:探索语言标记化

我被 Scholar 计划吸引是因为我看到了 OpenAI 模型的一些功能,并且我想了解构建和迭代如此强大的模型需要什么。有专门的时间在伟大的指导下探索深度学习已经改变了我理解和贡献该领域的能力!当我不工作时,我通常会摆弄小工具或与朋友一起寻找肾上腺素。我的项目探索了使用这些其他令牌化方案的权衡以及这些不同的令牌化如何扩展。我还考虑了一种学习序列分割而不是使用预定义分割的方法。
曾任职务:  Wahoo Fitness 的软件工程师、Lorable 的创始人兼首席执行官、Interkn 的数据工程师
有趣的学习:  “学者计划为我提供了探索 ML 和深度学习中许多不同想法的空间,从 CNN 和 RNN 等“经典”内容到了解最新 transformer 变体的权衡。能够与 OpenAI 的研究人员进行对话,让我意识到人工智能研究的前沿是非常容易接近的。我原本想了解最先进的技术,但过去几个月来这里让我明白我可以为推进深度学习和人工智能的发展做出有意义的贡献。在 OpenAI 工作也让我思考了很多关于我们创建的模型的含义以及向世界提供此类模型同时最大限度地减少潜在危害的方法。”

绍拉奥耶德勒

导师:亚历克斯·雷

Shola Oyedele 的社交链接

研究 Transformer 架构变体的比例定律

我在大学几乎主修法语,因为我一直很喜欢语言。我经常看其他语言的电影和电视节目(是的 - kdramas 在该列表的顶部)但我从没想过我对语言的热爱会转化为我在 NLP 方面的研究。在我的研究中,我探索了模型性能与训练成本之间的权衡,并研究了不同变压器架构的比例定律,以了解变压器架构对模型性能的影响。
曾任职务:  IBM 高级软件工程师、Walker & Co Brands 软件工程师、Inuit 软件工程师
有趣的学习:  “自从加入该计划以来,我的观点的一切都发生了变化。世界上很少有公司和机构大规模使用机器学习,并对 ML/AI 领域的发展方向有远见。对于那些没有研究经验和高级学位的人来说,机会就更少了,更不用说针对弱势群体的项目了。在业界发现 GPT3 潜力的时候加入这个项目的意义已经改变了我对技术的未来以及我在其中的位置的看法。我认为人们认为你需要技术学位才能研究人工智能,但我只是对未来感到好奇,并希望参与其中。”

佛罗伦萨 (Tyna) Eloundou

导师:约书亚阿希姆

佛罗伦萨 (Tyna) Eloundou 的社交链接

在连续控制环境中学习多种行为模式

我申请 OpenAI 是因为我希望获得极大的特权来解决塑造日益复杂的 AI 系统的问题。作为在美国长大的土生土长的喀麦隆人,我从多个角度(学术上、文化上和语言上)探索,并且很想知道人工智能如何从人类的共性和差异中学习。艰巨的奖励和约束工程过程有时会导致设计师的成功理念与其分析规范之间的不一致。此外,许多现实世界的任务包含多个目标,而强化学习中的当前方法并没有提供在帕累托等效策略之间进行选择的直接杠杆。为了解决这些问题,在我的项目中,我解释了我们如何使用“多位专家,
曾任职务: 兰德公司研究程序员、数据科学家,芝加哥联邦储备银行副经济学家
有趣的学习:  “对于该领域的新手,我建议在阅读其理论基础的同时,慢慢逐步了解知名算法的干净开源实现。尝试经常试验这些设计。Fast.ai 和 Andrew Ng 的课程是旅程的绝佳资源。”