转载

OpenAI 在深RL中旋转:研讨会回顾

我们在办公室接待了~90人,并通过我们的直播吸引了近300人。参与者来自不同的背景,包括学术界、软件工程、数据科学、机器学习工程、医学和教育。这个研讨会建立在我们的在深RL中旋转资源包,并深入研究了 RL 算法设计、机器人技术和构建安全的 AI 系统。

在有现场观众的房间前对着麦克风讲话的人

构建教育工具

OpenAI 的教育目标之一是帮助人们培养参与 AI 研究和开发所需的技能,尤其是在 OpenAI 研究的核心领域深度强化学习方面。根据我们的合作经验学者研究员,我们发现技能发展的关键要素是:

  1. 灵活的课程,包括核心材料和研究前沿回顾,
  2. 与专家的指导和讨论,以及
  3. 让学生从事适当级别的项目,以帮助他们成长。

OpenAI教育面临的挑战是弄清楚如何大规模地提供这些。虽然大规模共享课程相对容易,但如何扩大项目的指导和指导并不明显。我们的工作理论是,研讨会可以帮助我们做到这一点。我们的第一次Spinning Up研讨会给了我们几个积极的迹象,表明这是一个有用的方向,我们很高兴分享我们学到的东西。

人群

大量观众在向前看的同时专心聆听

我们的办公室接待了大约 90 人,并通过我们的直播参与了近 300 人。我们的客人来自不同的背景,包括学术研究、软件工程、数据科学、机器学习工程、医学和教育。整个团队的ML经验水平差异很大,从“几乎没有”到“构建自己的Dota机器人!

来自世界各地的500多人申请参加这次研讨会。虽然很遗憾,由于空间限制,我们无法邀请所有人参加,但我们希望继续让社区参与未来的活动。

会谈

研讨会在三个小时的演讲中拉开帷幕。为了开始我们,约书亚·阿奇亚姆阐述了强化学习的概念基础,并概述了不同类型的强化学习算法。如果您想学习此材料,请查看在深RL中旋转.

Matthias Plappert在OpenAI上发表演讲最近 工作在模拟中训练灵巧的机器人手来操纵现实世界中的物体。域随机化、递归神经网络和大规模分布式训练是弥合这项任务的“sim2real”差距的必要因素。

OpenAI安全团队负责人Dario Amodei概述了AI安全方面的问题和最近 工作在这个空间里。他描述了核心安全问题:正确指定代理行为是困难的!很容易无意中激励代理执行与您想要的不同行为,当代理非常强大时,这可能是危险的。达里奥还描述了工作OpenAI和DeepMind的合作者已经为解决这个问题做了工作,其中奖励函数是从人类的偏好中学习而不是设计的。

下午

研讨会一直持续到下午,有一个半结构化的黑客和分组会议计划。参与者能够从我们的志愿者名单中寻求有关项目想法和研究技巧的指导,其中包括阿曼达·阿斯克尔,亚历克斯·雷,丹尼尔·齐格勒,迪伦·哈德菲尔德-梅内尔,伊桑·奈特,卡尔·科布,马蒂亚斯·普拉珀特山姆·麦坎德利什.

一群演示者站在投影前,面对现场观众

分组会议成为下午的主要亮点。上午的讲座涵盖了强化学习的概念基础,而分组会议旨在帮助参与者提高他们的实施和研究技能。

一群人围坐在一张桌子旁,专注于他们的笔记本电脑

在第一场会议中,卡尔·科布介绍了张量流,用于深度学习研究的关键库。在第二场会议“一起编写DQN”中,Daniel Ziegler带领参与者逐步完成了实施深度RL算法的过程。在第三场“高级RL问答”中,Joshua Achiam描述了RL最近的研究前沿,并回答了观众关于进行RL研究的问题。

人们围坐在大桌子旁,在笔记本电脑上工作,在拥挤的房间里聊天。

我们的收获

这是我们第一次尝试研讨会形式,我们对结果总体上感到满意。特别是,我们感到非常高兴能够直接与这样一群有能力和热情的参与者一起工作。这次经历以及小组的反馈让我们很好地了解了要保留的内容以及为未来的研讨会更改的内容。

什么有效:我们询问了参与者他们的亮点是什么,这些回答是一个相当有代表性的样本:

“在一个非常安全、友好的环境中学习 TON,每个人在学习方面基本上处于同一水平。”
“我认为能够获得一对一的帮助,并与真正知道自己在做什么的人一起度过一些类似'配对编程'的时间是非常有帮助的。志愿者们的积极性也很高,我感到非常鼓舞地寻求帮助。


这样的回应让我们感觉到,研讨会的形式在提供“指导和与专家的讨论”方面大放异彩。

两个人在笔记本电脑上一起工作

可以改进的地方:我们询问参与者他们认为我们可以做些什么来增强他们的体验,并得到以下回答:

“我希望有一个潜在项目的演示部分,我们可以根据我们的经验水平进行。
“将研讨会延长到两天。”

许多参与者觉得他们要么不确定在黑客马拉松期间要做什么,要么没有足够的时间在他们的黑客项目上取得重大进展。

我们认为这种反馈是一个很好的指标,表明为期 1 天的研讨会形式不足以在 RL 中“让学生从事处于适当水平的项目以帮助他们成长”。未来,我们会考虑举办更长时间的活动,以便实现这一目标。这种反馈还表明,我们应该做更多的事情来创建参与者可以直接进入的“准备就绪”的强化学习项目。

一个人坐在耳朵里,专心地看着3D棋盘格环境的笔记本电脑屏幕的侧面轮廓

还有什么?除了研讨会的技术内容外,创造一个支持性和包容性的环境是我们的首要任务,参与者告诉我们这对他们的体验很重要。一条反馈写道:

“这是我在硅谷参加的第一个非女性独家社交活动,房间里有~50%的女性。这太令人震惊了,以至于我一开始以为我走错了房间。由于性别平衡,社交明显更容易,所以谢谢你。
两个人拿着食物和饮料站着说话

下一步是什么

开放人工智能的宪章赋予我们“创建一个全球社区,共同努力应对AGI的全球挑战”,我们将继续在OpenAI开发教育,以帮助实现这一目标。这包括在资源上做更多工作,例如在深RL中旋转以及更多像这个旋转研讨会这样的活动。我们目前正在计划举办第二次研讨会柴在伯克利,我们预计将很快正式宣布。

如果您想帮助我们进行RL研究或向人们传授AI知识,请与我们联系!我们正在招聘.

感谢 Maddie Hall 和 Loren Kwan 共同组织本次活动,感谢 Ian Atha 的直播和录制讲座,以及帮助参与者解决 Python 和 Tensorflow 问题,以及布莱克·塔克用于拍摄和摄影!