OpenAI研究 收集人类反馈
RL-Teacher 是我们界面的开源实现,通过偶尔的人类反馈而不是手工制作的奖励函数来训练 AI。底层技术是作为迈向安全人工智能系统的一步而开发的,但也适用于奖励难以指定的强化学习问题。
这个模拟机器人正在接受训练,通过人类提供反馈来跳芭蕾舞。如何指定奖励函数来实现相同的行为并不明显。
该版本包含三个主要组件:
- 一个 奖励预测器 ,可以插入任何代理并学习预测代理可以采取的人类会批准的行动。
- 通过奖励预测器指定的函数学习的示例代理。 RL-Teacher 附带三种预集成算法,包括 OpenAI Baselines PPO。
- 一个 网络应用程序 ,人类可以用来提供反馈,提供用于训练奖励预测器的数据。
整个系统由不到 1000 行 Python 代码组成(不包括代理)。设置好网络服务器后,您可以通过运行以下命令启动实验:
$ python rl_teacher/teach.py -p human --pretrain_labels 175 -e Reacher-v1 -n human-175
无效的
人们可以通过一个简单的 Web 界面(如上所示)提供反馈,该界面可以在本地(不推荐)或在单独的机器上运行。项目的 GitHub 存储库中提供了完整的文档。