转载

OpenAI 学者 2019:最终项目

我们的第二届OpenAI学者已经结束,所有八位学者都在OpenAI的学者演示日上展示了一个令人兴奋的最终项目。

在过去的三个月里,我们已经看到在软件、医学、物理、儿童发展和其他领域工作的经验丰富的工程师如何通过我们的教育资源和指导相结合,成为机器学习从业者。

重看演示日
在演示日向现场观众演示的人
在演示日坐在观众席上时通过麦克风打手势和提问的人
两个人站在一起,一个人在一张纸上写字,另一个人在旁边看着

法特玛·塔拉奇

导师:乔纳森·雷曼

作品来自:德克萨斯州奥斯汀

法特玛·塔拉奇的社交链接

法特玛·塔拉奇的照片

微调 GPT-2 小尺寸用于问答

曾任职务:斯坦福大学计算机科学研究员埃里克·罗伯茨
有趣的学习:“OpenAI学者计划让我在深度学习方面打下了坚实的基础,并对自然语言处理和理解有了透彻的了解。该计划还让我能够更清楚地定义我对人工智能的研究兴趣,为我提供资源来试验深度学习的各个子领域。
最终项目:尽管最近强大的语言模型取得了成功,但推理仍然是自然语言理解中一项具有挑战性的任务。问答 (QA) 需要在单个任务中全面混合语言处理和推理技能。评估系统在 QA 任务上的成功和失败为其推理机制提供了有价值的见解。该项目通过微调来试验GPT-2 小型模型供 QA 分析其在推理方面的表现。

乔纳森·米修

导师:费里亚尔·贝巴哈尼

作品来自:芝加哥和旧金山

乔纳森·米修的社交链接

乔纳森·米修的照片

使用内在动机解决稀疏奖励的机器人任务

曾任:芝加哥大学细胞与分子生物学博士生
有趣的学习:“在加入学者计划之前,我已经制定了自学机器人的计划。OpenAI 学者计划让我有机会通过专门针对深度强化学习的课程来大大提高我的自学能力。在花了8周时间阅读论文并实施核心Deep RL算法后,我能够将我学到的知识应用于解决一系列具有挑战性的机器人问题。
最终项目:许多机器人问题都是自然形成的,因此对代理的外在奖励要么很少,要么完全缺失。这些问题可能非常难以解决,因为环境提供的反馈有限,无法指导代理实现其目标。以前的研究表明,使用预测误差作为内在奖励进行训练的智能体能够在广泛的领域学习,包括Atari游戏和连续控制任务。在这个项目中,我使用好奇心驱动的探索来解决具有挑战性的机器人任务,奖励很少。然后,我将内在奖励表述为代理预测其下一个状态的能力的误差,给定其当前状态和执行的操作。我的结果表明,这种方法能够在仿真中解决几个困难的机器人操作任务。

南希·奥特罗

导师:凯·阿鲁库马兰

作品来自:纽约市和墨西哥城

南希·奥特罗的社交链接

南希·奥特罗的照片

生物:由机器学习驱动的人类学习

以前的角色:软件工程师 at帕洛阿尔托网络;学习设计与研究创始主任;在墨西哥成立非营利组织;斯坦福教育学院
有趣的学习:“OpenAI学者计划表明,只要有正确的指导、信任和财务支持,学习机器学习来做一个自主的项目是可能的。我学习了语言模型、数据收集和处理、模型调优,以及如何将所有这些集成到一个用于教育目的的即用型模型中。我很高兴能继续从事我的项目,深入研究人类智能和人工智能之间的关系,并将我在这个项目中学到的知识转化为其他人可以使用的学习活动。
最终项目:基于项目的学习是一种非常有效和愉快的学习方式,但教师往往很难找到适合学生的项目。尽管网上有数以千计的项目,但大多数项目标签很差,因此教师很难找到。根据具体情况,准确标记数千个在线项目将是令人生畏和昂贵的。CREATURE 是一种概念验证模型,以 75-90% 的准确率标记在线项目。

陈玲玲

导师:翁莉莲

作品来自:新泽西州普林斯顿

陈婷婷的社交链接

陈玲玲照片

医疗应用的强化学习

曾任:普林斯顿大学博士生
有趣的学习:“我学习了NN,CNN,RNN,LSTM和深度强化学习。我实现了不同的神经网络架构和大多数RL算法,包括DQN,VPG,TRPO,PPO和DDPG。在这个课程之前,我主修统计学,没有深度学习的经验。OpenAI学者计划为我提供了指导和资源,让我在短时间内学习核心深度学习方法。
最终项目:我开发了一个计算机系统,该系统从历史电子健康记录(EHR)中学习,并根据患者的生命体征和实验室值推荐最佳治疗方案 - 静脉输液和血管加压药的剂量。我特别考虑了策略迭代和具有离散状态和操作空间的表格 Q 学习。结果显示,与医生的实际治疗相比,最佳RL策略建议使用较低剂量的静脉输液和较高剂量的血管加压药。政策外评估表明,Q学习学习的最优策略比策略迭代学习的最优策略具有更高的回报。该系统可以轻松扩展以处理连续状态/操作空间,并结合其他非策略RL算法。

姬梦鑫

导师:阿扎利亚·米尔霍西尼

作品来自:德克萨斯州奥斯汀

姬海伦(梦鑫)的社交链接

季海伦(梦鑫)照片

使用强化学习进行情感分析

曾任:加州大学戴维斯分校经济学博士生
有趣的学习:“这个项目让我有机会从当前的语言模型中学习实践,并更深入地了解在我的项目中实现的强化学习方法。三个月后,我发现自己对人工智能领域的主要兴趣,学者计划为我提供了宝贵的资源,让我在这个领域学习、实践和部署有趣的想法。
最终项目:我们提出了结合强化学习(RL)方法和监督NLP方法来预测句子情绪的新模型。我们将情绪分析任务制定为一个顺序决策过程,目标是结合RL方法进行情绪分析。对于涉及策略网络和分类网络的模型,我们发现添加RL方法可以提高变压器模型的性能,并在预训练的BERT模型上产生可比的结果。我们得出结论,对于语言模型中的具体分类问题,良好的奖励函数定义是强化学习训练的重要组成部分。

万宇豪

导师:乔什·阿基亚姆

作品来自:湾区

万宇豪的社交链接

万玉浩照片

探索伽玛:未来的折扣,或过去的重量

曾任职务:卡尔顿学院REU-CAAR暑期研究小组
有趣的学习:“学者计划让我快速获得一系列重要技能。在自我设计的学习的前两个月里,我了解了强化学习的理论,并熟悉了如何从头开始实现深度强化学习算法。我也感谢我在完成最终项目时获得的自由和支持。在项目结束时,我现在感到更加自信,并准备好迎接未来的新挑战。
最终项目:折扣因子的作用在深度强化学习(DRL)中经常被忽视。在这个项目中,我发现了深度Q网络中折扣因子的双重作用:它编码跨期偏好和自举信心。根据这一假设,我设计了一个简单的近视方案,可以提高各种自定义网格环境中的基线性能。实验结果表明,时变方案在更一般的设置中可能是鲁棒和有效的,超越DQN和离散动作/状态框架。

珍妮特·布朗

导师:克里斯蒂·丹尼森

作品来自:旧金山

珍妮特·布朗的社交链接

珍妮特·布朗的照片

使用激活图谱技术可视化和评估图像合成 GAN。

曾任角色:阿塔科特;哈佛商学院;麦肯锡公司
有趣的学习:“在这个计划之前,我专注于在AR / VR领域应用简单的DL模型。这个程序让我有时间深入研究深度学习的基础,并研究神经网络的“黑匣子”。该计划不仅是一个这样做的机会,而且可以通过接触愿意分享他们见解的该领域的领导者来做到这一点。
最终项目:生成模型正在实现越来越多的逼真图像,但我们仍然难以有效地评估和理解它们。我专注于理解和评估图像合成 GAN 的不同方法,使用 Distill 的激活图谱 - 一个 GAN-tlas!使用这种方法,我们不仅能够测量数字方面的差异,而且能够测量高度可视化的差异 - 看到神经网络在遇到真实和虚假图像时看到的黑匣子内部。

埃德加·巴拉萨

导师:张淑娴

作品来自:纽约州伊萨卡

埃德加·巴拉萨的社交链接

埃德加·巴拉萨的照片

转换器语言模型的知识蒸馏

曾任:康奈尔大学物理学系
有趣的学习:“OpenAI学者计划让我有机会学习自然语言处理方面最新和最伟大的进步。我还获得了实施和探索新的计算量想法的资源,使我能够快速学习执行想法的技能。
最终项目:随着变压器的出现,神经网络有能力像人类一样生成语言、总结文本、回答问题等等!随着它们变得越来越强大,它们的尺寸也越来越大,使它们越来越难以在移动设备上运行。为了使这些工具更易于访问,该项目通过使用一个训练有素的大型转换器作为教师,向较小的未经培训的学生网络探索了使用转换器语言模型进行知识蒸馏。

项目

我们的学者展示了各种专家领域的核心技术技能和自我激励——这是像这样的自主课程的关键能力。他们每个人都以相对较新的身份进入机器学习领域,我们希望他们的进展表明机器学习是多么容易获得。要开始您的学习之旅,请查看我们的一些教育材料.有关下一届学者以及如何申请的更多信息将于7月公布。敬请期待!

感谢 AWS 为学者提供计算积分。还要感谢我们敬业的社区导师花时间为学者提供项目建议。