OpenAI研究 学习通过人类反馈进行总结
我们已经应用来自人类反馈的强化学习来训练更擅长总结的语言模型。
为什么重要
我们的模型生成的摘要比仅通过监督学习训练的大 10 倍的模型生成的摘要要好。即使我们在 Reddit TL;DR 数据集上训练我们的模型,相同的模型也可以转移以生成 CNN/DailyMail 新闻文章的良好摘要,而无需任何进一步的微调。我们的技术并不特定于摘要;从长远来看,我们的目标是使人工智能系统与人类偏好保持一致,成为许多领域人工智能研究和部署的核心组成部分。
人类反馈模型在 TL;DR 上优于更大的监督模型和参考摘要
大型语言模型在 NLP 任务上的能力越来越强。这些模型通常以在人类书写文本数据集上预测下一个单词为目标进行训练。但是这个目标并没有准确地捕捉到我们想要的东西;通常,我们不希望我们的模型模仿人类,我们希望它们给出高质量的答案。当训练模型模仿低质量的人类书写文本时,这种不匹配很明显,但它也可能以更微妙的方式发生。例如,经过训练以预测人类会说什么的模型可能会在不确定时编造事实,或者生成反映有害社会偏见的句子,这两种失败模式都有详细记录。1、2、3、4个
作为我们安全工作的一部分,我们希望开发使我们的模型目标与我们真正关心的最终行为保持一致的技术。随着我们的模型变得更加强大,我们相信使它们与我们的目标保持一致对于确保它们对人类有益非常重要。在短期内,我们想测试人类反馈技术是否可以帮助我们的模型提高有用任务的性能。
我们专注于英文文本摘要,因为这是一个具有挑战性的问题,在没有人工输入的情况下很难捕捉到什么是“好的摘要”的概念。我们主要将我们的方法应用于现有数据集5个 提交到社交网络 Reddit 的帖子A[A]
我们聘请人工贴标机来判断摘要质量,并实施质量控制以确保贴标机的判断与我们自己的判断一致。我们在下面描述了我们的人类数据收集程序。
我们首先通过监督学习训练奖励模型,以预测人类更喜欢哪些摘要。乙[乙]
对于训练,我们使用 Reddit TL;DR 数据集5个 而不是更流行的 CNN/DM 数据集,因为简单的复制基线比 CNN/DM 上的人工编写的参考摘要表现更好,而 TL;DR 则不是这种情况(参见我们论文的附录 D)。我们执行了新的网络爬取以增加 TL;DR 数据集大小,要求摘要在 24 到 48 个标记之间,并执行了一些其他清理和过滤
我们的方法直接遵循 我们之前 关于从人类反馈中学习的工作。6个 还有其他关于使用人类反馈来训练摘要模型的工作。7 我们通过扩展到更大的模型、收集更多的反馈数据、密切监控研究人员-贴标签者的协议以及向贴标签者提供频繁的反馈来进一步推动这项技术。人类反馈也被用于训练其他几个领域的模型,例如对话,8、9 ,10 语义解析,11 翻译,12 ,13 故事14 和审查15 生成,证据提取,16 和更传统的 RL 任务。17 ,18