转载

OpenAI研究 深度强化学习中的基准安全探索

强化学习 (RL) 代理需要探索其环境,以便通过反复试验学习最佳策略。在许多环境中,安全是一个关键问题,某些错误是不可接受的:例如,与人类互动的机器人系统在探索时绝不能对人类造成伤害。虽然目前通常主要或完全在模拟中训练 RL 代理,其中安全问题最小,但我们预计模拟现实世界的复杂性(例如人机交互)的挑战将导致直接训练 RL 代理的转变在安全问题至高无上的现实世界中。因此,我们认为安全探索应被视为 RL 研究的关键重点领域,在这项工作中,我们为推进安全探索研究做出了三项贡献。首先,基于之前关于安全强化学习的广泛工作,我们建议将受限强化学习标准化为安全探索的主要形式。其次,我们介绍了 Safety Gym 基准套件,这是一种新的高维连续控制环境,用于衡量受限 RL 的研究进展。最后,我们在 Safety Gym 环境中对几种受约束的深度 RL 算法进行了基准测试,以建立未来工作可以建立的基线。一种新的高维连续控制环境,用于衡量受限 RL 的研究进展。最后,我们在 Safety Gym 环境中对几种受约束的深度 RL 算法进行了基准测试,以建立未来工作可以建立的基线。一种新的高维连续控制环境,用于衡量受限 RL 的研究进展。最后,我们在 Safety Gym 环境中对几种受约束的深度 RL 算法进行了基准测试,以建立未来工作可以建立的基线。

详细论文