OpenAI研究 安全健身房
我们发布了 Safety Gym,这是一套环境和工具,用于衡量在训练时遵守安全约束的强化学习代理的进展情况。
我们还提供了一种标准化的方法来比较算法以及它们在学习时如何避免代价高昂的错误。如果将深度强化学习应用于现实世界,无论是在机器人技术还是基于互联网的任务中,重要的是拥有即使在学习时也是安全的算法——就像自动驾驶汽车一样,它可以学会避免事故而无需实际操作体验它们。
探索有风险
强化学习代理需要探索他们的环境以学习最佳行为。从本质上讲,他们按照试错原则运作:他们尝试各种事情,看看什么有效或无效,然后增加良好行为的可能性并降低不良行为的可能性。然而, 探索从根本上来说 是 有风险的:代理人可能会尝试导致不可接受的错误的危险行为。 简而言之,这就是 “安全探索”问题。
考虑工厂中使用强化学习 (RL) 学习如何组装小部件的自主机器人手臂的示例。在 RL 训练开始时,机器人可能会尝试随机挥舞,因为它还不知道该做什么。这对可能在附近工作的人构成安全风险,因为他们可能会被击中。
对于像机器人手臂这样的受限示例,我们可以想象一些简单的方法来确保人类不会受到伤害,只需让人类远离伤害:只要人类离得太近就关闭机器人,或者在机器人周围设置障碍物。但对于在更广泛条件下运行的一般 RL 系统,简单的物理干预并不总是可行的,我们将需要考虑其他安全探索的方法。
约束强化学习
在安全探索等问题上取得进展的第一步是对其进行量化:找出可以衡量的内容,以及这些指标的上升或下降如何让我们更接近预期的结果。换句话说,我们需要为安全探索问题选择一种形式。形式主义允许我们设计实现我们目标的算法。
虽然有多种选择,但在安全探索研究领域尚未就正确的形式主义达成普遍共识。我们花了一些时间思考,我们认为最适合采用的形式主义是约束强化学习。
约束 RL 与普通 RL 类似,但除了智能体想要最大化的奖励函数之外,环境还具有智能体需要约束的成本函数。例如,考虑一个控制自动驾驶汽车的代理。我们想要奖励这个代理人尽可能快地从 A 点到达 B 点。但自然地,我们也希望限制驾驶行为以符合交通安全标准。
我们认为,在确保代理满足安全要求方面,约束 RL 可能比普通 RL 更有用。普通 RL 的一个大问题是,关于智能体最终行为的一切都由奖励函数来描述,但奖励设计从根本上来说是困难的。挑战的一个关键部分来自于在相互竞争的目标之间做出权衡,例如任务绩效和满足安全要求。在受限 RL 中,我们不必做出权衡取舍——相反,我们选择结果,然后让算法计算出权衡取舍,从而获得我们想要的结果。
我们可以使用自动驾驶汽车案例来勾勒出这在实践中意味着什么。假设汽车每完成一次行程就赚取一定数量的钱,并且必须为每次碰撞支付罚款。
在正常的 RL 中,你会在训练开始时选择碰撞罚款并永远保持固定。这里的问题是,如果每次旅行的费用足够高,代理可能不会关心它是否会遇到很多碰撞(只要它仍然可以完成它的旅行)。事实上,为了得到报酬而鲁莽驾驶并冒着碰撞的风险甚至可能是有利的。我们之前在训练 不受约束的 RL 代理时已经看到了这一点。
相比之下,在受限 RL 中,您会在训练开始时选择可接受的碰撞率,并调整碰撞率直到代理满足该要求。如果汽车进入太多的挡泥板弯道,你会提高罚款,直到不再激励这种行为。
安全健身房
为了研究用于安全探索的受限强化学习,我们开发了一套名为 Safety Gym 的新环境和工具。与受限 RL 的现有环境相比,Safety Gym 环境更丰富,并且具有更广泛的难度和复杂性。
在所有 Safety Gym 环境中,机器人必须在杂乱的环境中导航才能完成任务。有三个预制机器人(Point、Car 和 Doggo)、三个主要任务(Goal、Button 和 Push),每个任务有两个难度级别。我们在下面概述了机器人任务组合,但请务必查看 论文 以了解详细信息。
在这些视频中,我们展示了没有约束的代理如何尝试解决这些环境问题。每次机器人做一些不安全的事情——在这里,意味着遇到混乱——代理人周围会闪烁红色警告灯,代理人会产生成本(与任务奖励分开)。因为这些代理人不受约束,所以他们在试图最大化奖励时往往会表现得不安全。
Point 是一个限制在 2D 平面上的简单机器人,其中一个执行器用于转动,另一个用于向前或向后移动。Point 有一个正面的小方块,可以帮助完成 Push 任务。
汽车 有两个独立驱动的平行轮和一个自由滚动的后轮。对于这个机器人,转动和向前或向后移动需要协调两个执行器。
狗狗 是双侧对称的四足动物。它的四条腿中的每条腿在臀部都有两个控件,用于相对于躯干的方位角和仰角,在膝盖上有一个控件,用于控制角度。统一的随机策略可防止机器人摔倒并产生行程。
基准
为了帮助 Safety Gym 开箱即用,我们在 Safety Gym 基准套件上评估了一些标准 RL 和约束 RL 算法: PPO、 TRPO、 PPO 和 TRPO 的 拉格朗日惩罚版本,以及约束策略优化 (CPO)。
我们的初步结果证明了 Safety Gym 环境的广泛难度:最简单的环境很容易解决并允许快速迭代,而最困难的环境可能对当前技术来说太具有挑战性。我们还发现拉格朗日方法比 CPO 出人意料地好,推翻了该领域先前的结果。
下面,我们展示了平均情景回报和平均情景成本总和的学习曲线。在我们的 论文中,我们描述了如何使用这些指标和第三个指标(训练的平均成本)来比较算法和衡量进展。
回报和成本有意义地相互权衡
为了促进可重复性和未来的工作,我们还将用于运行这些实验的算法代码作为 Safety Starter Agents 存储库发布。
未解决的问题
在改进受约束 RL 的算法,并将它们与其他问题设置和安全技术相结合方面,还有很多工作要做。目前我们最感兴趣的是三件事:
- 提高当前 Safety Gym 环境的性能。
- 使用 Safety Gym 工具调查安全迁移学习和分配转移问题。
- 将受限 RL 与隐式规范(如 人类偏好)相结合以获得奖励和成本。
我们的期望是,就像我们今天在给定任务中衡量系统的准确性或性能一样,我们最终也会衡量系统的“安全性”。此类措施可以切实可行地整合到开发人员用来测试其系统的评估计划中,并有可能被政府用来制定 安全标准。A[A]
OpenAI 回应美国机构 NIST 关于人工智能标准的信息请求的评论。
脚注
OpenAI 回应美国机构 NIST 关于人工智能标准的信息请求的评论。↩︎