OpenAI研究 在深度 RL 中旋转起来
在 OpenAI,我们相信深度学习——尤其是深度强化学习——将在强大的人工智能技术的发展中发挥核心作用。虽然有许多资源可以让人们快速掌握深度学习,但深入强化学习更具挑战性。我们设计 Spinning Up 是为了帮助人们学习使用这些技术并培养对它们的直觉。
通过与 OpenAI 学者 和 研究员 计划的合作,我们受到启发建立了 Spinning Up,我们观察到,如果有正确的指导和资源,那些在机器学习方面几乎没有经验的人也有可能迅速成为从业者提供给他们。Spinning Up in Deep RL 正是基于这种需求而构建的,并被整合到 2019 年 学者和研究员队列的课程中。
我们还看到,精通 RL 可以帮助人们参与跨学科研究领域,例如 AI 安全,其中涉及强化学习和其他技能的组合。我们已经有很多人寻求从头开始学习 RL 的指导,因此我们决定将我们一直提供的非正式建议正式化。
Spinning Up in Deep RL 由以下核心组件组成:
- RL 术语、算法种类和基础理论的简短 介绍。
- 一篇 关于如何成长为 RL 研究角色的文章。
- 按主题组织的重要论文精选列表 。
- 一个有据可查的 简短独立实现的代码库:Vanilla Policy Gradient (VPG)、Trust Region Policy Optimization (TRPO)、Proximal Policy Optimization (PPO)、Deep Deterministic Policy Gradient (DDPG)、Twin Delayed DDPG (TD3 )和软演员评论家(SAC)。
- 还有一些 练习 作为热身。
支持
我们对这个项目有以下支持计划:
- 高带宽软件支持期:在发布后的前三周内,我们将快速修复错误、安装问题,并解决文档中的错误或歧义。我们将努力简化用户体验,以便尽可能轻松地自学 Spinning Up。
- 2019 年 4 月的重大审查:发布后大约六个月,我们将根据从社区收到的反馈对软件包的状态进行认真审查,并宣布未来的任何修改计划。
- 内部开发的公开发布:如果我们在与我们的学者和研究员合作时对 Deep RL 中的 Spinning Up 进行更改,我们会将更改推送到公共 repo 并立即提供给所有人。
OpenAI 的教育
Spinning Up in Deep RL 是 OpenAI 一项新教育计划的一部分,我们正在“加速”以确保我们履行OpenAI 宪章的一项原则 :“寻求创建一个全球社区,共同应对 AGI 的全球挑战” . 我们希望 Spinning Up 能让更多人熟悉深度强化学习,并用它来帮助推进安全且广泛有益的 AI。

我们将于 2019 年 2 月 2 日在 OpenAI San Francisco 举办一场关于 Spinning Up in Deep RL 的研讨会。研讨会将包括 3 小时的讲座材料和 5 小时的半结构化黑客、项目开发和分组会议——所有这些都由 OpenAI 的技术人员提供支持。理想的与会者具有软件工程经验并且对 ML 进行过修补,但不需要正式的 ML 经验。如果您有兴趣参与,请 在此处完成我们的简短申请。申请将于 2018 年 12 月 8 日截止,录取通知书将于 2018 年 12 月 17 日寄出。
如果您想在与他人交流和教育他人的同时帮助我们突破 AI 的极限,请考虑申请在 OpenAI 工作。
伙伴关系
我们还将与其他组织合作,帮助我们对使用这些材料的人进行教育。对于我们的第一个合作伙伴关系,我们正在与 加州大学伯克利分校的人类兼容人工智能中心(CHAI) 合作,于 2019 年初举办深度强化学习研讨会,类似于计划在 OpenAI 举办的 Spinning Up 研讨会。我们希望这将是许多人中的第一个。

你好世界
了解深度 RL 算法执行情况的最佳方法是直接运行它们。使用 Spinning Up,这很简单:
python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world
培训结束时,您将获得有关如何查看实验数据和观看受训代理视频的说明。
Spinning Up 实现与来自Classic Control、 Box2D或 MuJoCo任务套件的 Gym 环境兼容 。
我们在设计 Spinning Up 代码时考虑到了新手,使其简短、友好且尽可能易于学习。我们的目标是编写最少的实现来演示理论如何变成代码,避免深度 RL 库中通常存在的抽象层和混淆层。我们赞成清晰而不是模块化——实现之间的代码重用严格限于日志记录和并行化实用程序。代码带有注释,因此您始终知道发生了什么,并由相应的 readthedocs 页面上的背景材料(和伪代码)提供支持。