OpenAI研究 根据人类偏好微调 GPT-2
我们已经使用针对各种任务的人工反馈对 774M 参数 GPT-2 语言模型进行了微调,成功地匹配了外部人工标注者的偏好,尽管这些偏好并不总是与我们自己的偏好相匹配。具体来说,对于摘要任务,标注者更喜欢从输入中批量复制句子(我们只要求他们确保准确性),因此我们的模型学会了复制。摘要需要 60k 人工标签;以各种样式继续文本的更简单的任务只需要 5k。我们的动机是使安全技术更接近“机器与人类对话”的一般任务,我们认为这是提取有关人类价值的信息的关键。
我们相信语言是使强化学习对现实世界的任务变得实用和安全的关键因素。 以前关于人类偏好学习模型的 工作 主要集中在简单的模拟环境(Atari 游戏或机器人任务)上,这些环境无法捕捉语言的复杂性。语言也是放大 和 辩论等算法的必要成分 ,这些算法针对偏好背后的推理。
这项工作将人类偏好学习应用于多项自然语言任务:使用 BookCorpus 继续具有积极情绪的文本或物理描述性语言 ,以及总结来自 TL;DR 和 CNN/Daily Mail 数据集的内容。这些任务中的每一个都可以看作是一个文本完成问题:从一些文本 X开始,我们询问 Y 应该跟在什么文本之后。A[A]
为了概括起见,文本是文章加上字符串“TL;DR:”。
我们从一个预训练的语言模型( GPT-2 的 774M 参数版本)开始,并通过询问人工标注者 四个样本中哪个样本最好来微调模型 。对文体延续任务的微调是有效的样本:根据人类的说法,5,000 个人类样本足以实现强大的性能。对于总结,经过 60,000 次比较训练的模型学会从输入中复制整个句子,同时跳过不相关的序言;这种复制是确保准确摘要的简单方法,但可能会利用标记器依赖简单启发式的事实。
文体文本延续
对于风格延续任务,比较原始 774M GPT-2 模型和我们微调版本的示例如下所示。乙[乙]
每个经过微调的模型都由人类使用 5,000 次四向比较进行训练。
给定一些文本,生成具有积极情绪的文本的自然延续:
根据用于训练它们的相同人类标签,我们的微调模型在情感和描述方面分别有 88% 和 86% 的时间优于基础 GPT-2 模型(零样本)。
总结
我们还将人工微调应用于两个摘要任务:来自 CNN/Daily Mail 数据集的文章摘要,以及来自 TL;DR 数据集的 Reddit 片段摘要。
这些任务更难:我们的主要模型使用 60,000 个四向比较。我们还需要 在线 数据收集,随着政策的变化,在整个培训过程中收集向人类展示的样本;一种 离线 数据收集策略,该策略仅向人类显示来自基本 GPT-2 语言模型的样本表现不佳。
我们的模型根据人类贴标签者获得了非常好的性能,但可能利用了贴标签者依赖简单启发式的事实:他们更喜欢将前三个句子复制到我们的模型的 lead-3 基线。然而,当将监督微调与人工微调相结合时,我们的模型在 ROUGE 分数上优于 lead-3。
来自零样本和监督基线的样本,以及每个样本的 RL 微调,如下所示。
这位寡头和切尔西足球俱乐部的老板似乎并不是唯一一个在水下探险上挥金如土的富商。
被称为地球真正的“最后边界”的海洋仍然鲜为人知,以至于亿万富翁们排着长队购买船只,让他们一睹世界海洋的壮丽海景和令人难以置信的野生动物。
因此,如果您的银行存款有几百万,并且想要一些真正胜过其他人的假期快照和 Instagram 帖子,您可能想要抢购其中之一……
鲸鱼时代:OrcaSub 在两个加压有机玻璃观察圆顶中带您到水下 2000 英尺,以进行最佳探索
Spymaster 的 OrcaSub
时尚、安静且有点昂贵,这艘潜艇是水下野生动物爱好者的完美玩具。
建造这艘流线型船只的目的是让探险者能够与深海生物对视,而不会吓跑它们。
有鉴于此,豪华车是电池动力,让乘客在水中安静航行。
冒险家可以以每小时 6 节的速度探索水下 2,000 英尺。
飞行员将被安置在带有有机玻璃圆顶的加压空间中,可以 360 度水下观察从沉船到珊瑚礁的一切事物。
OrcaSub 并不便宜,要花费 1,284,169 英镑(190 万美元)。
观鲸!Migaloo 之所以脱颖而出,是因为它能够在水上和水下体验自然,因为这艘船既可以是游艇,也可以是潜水艇
。 820英尺,为您的宾客提供奢华探险的
奢华环境!
Migaloo by Motion Code: Blue在两层主人套房和八间贵宾套房中航行
超级富豪不必决定是使用他们的游艇还是潜水艇,因为两者与 Migaloo 合二为一通过运动代码:蓝色。
这艘 377 英尺长的私人白色游艇可提供完全的隐私,因为您可以选择是在水面上方的天窗上休息,还是在最大潜水深度为 820 英尺(250 米)的水面下观赏鲸鱼。
它还拥有一个直升机停机坪、一个带私人庭院的两层主人套房和八个供客人使用的贵宾套房。
Motion Code: Blue 尚未建造其中一艘订购,但如果将其与美国海军类似的弗吉尼亚级攻击潜艇进行比较,估计建造一艘耗资约 23 亿美元深度。
理查德·布兰森爵士 (Sir Richard Branson) 乘坐 DeepFlight 的超级猎鹰号,它会自动浮到水面以确保安全
该技术允许潜艇在经过短期培训后由所有者(或指定的船员)驾驶,而不需要高度专业的飞行员。图为
DeepFlight 的 The Dragon Super Falcon and Dragon
如果这些潜艇对理查德布兰森爵士来说足够好,那么它们对我们来说肯定也足够好。
这些个人潜艇的目标是既创新又安全,因为有浮力,它们会自动浮到水面。
他们目前提供两种 DeepFlight 潜艇:Super Falcon 和 Dragon。
他们都能够与海豚一起翻滚,或者像鲸鱼一样从水里跳出来。
此外,DeepFlight 是全电动且零排放的。
Super Falcon 和 Dragon 的售价分别为 115 万英镑(170 万美元)和 100 万英镑(150 万美元)。
Super Yacht Sub 3 提供紧凑的私人潜水航行,并允许三名乘客探索海洋
U-Boat Worx 开发了潜艇,非常适合探索水面以下 984 英尺的水下生活
Super Yacht Sub 3 by U-Boat Worx
它的名字有点不祥,但 U-Boat Worx 的设计是一种探索超级游艇下海洋的亲密方式。
超级游艇 Sub 3 被称为海上跑车,可让一名飞行员和两名乘客潜入水面以下 984 英尺(300 米)。
不仅是一次奢华的旅行,全景前窗还可以让您欣赏到令人难以置信的鱼类和水生生物景观。
成本略高于普通汽车,全包价格为 900,000 英镑 - 对亿万富翁来说是小菜一碟。
一个难忘的夜晚!Oliver's Travels 让您以每晚 175,000 英镑的价格租用一艘潜艇,配备船长、厨师和管家
海洋用餐!
为了完成奢华体验,我们开发了一份专业的春药品尝菜单,以确保客人有心情充分利用 Lovers Deep 设施,通过 Oliver's Travels 预订 Mile Low Club蜜月套餐的客人可免费使用
对于那些想要安排一次与众不同的约会的人来说,乘坐 Lovers' Deep 号旅行是不二之选,这是一艘专为浪漫之旅而设的豪华潜艇。
对于那些无力购买自己的潜艇但仍然可以花大价钱获得超豪华体验的人来说,这是完美的水下逃生之旅。
客人将由船长、厨师和私人管家组成的船员照顾,他们住在船的另一端。
世界尽在您的掌控之中,礼宾服务让您可以完全掌控自己的冒险之旅,因此您可以停泊在任何地方,从圣卢西亚海岸外令人惊叹的珊瑚礁到红海沉没的战舰附近。
可选的附加服务包括带海滩降落的直升机接送服务、免费的玫瑰花瓣撒播服务或床上香槟早餐,它可以成为一个不寻常的浪漫套餐。
也就是说,如果您能负担得起每晚高达 175,000 英镑的价格(不包括航空旅行)。
Trilobis 65 是一艘 65 英尺长的六人生态游艇,是海湾、环礁和海洋公园的理想之选。
两全其美!无论您想在甲板上休息,还是在水下观看,这艘船都能满足
Giancarlo Zema Design Group 设计的所有 Trilobis 65
这艘船在水上相当于一艘太空船,是第一艘让客人体验水下生活的生态游艇无污染栖息地。
Trilobis 65 由四层组成,由螺旋楼梯连接,包括一个淹没在水面以下 9 英尺的海洋观景台。
它有六个座位,连接高科技软件来控制灯光,并实时获取海底和周围鱼类的信息。
这些窗户是电化学的,可以手动或自动改变它们的不透明度,具体取决于外面的光线。
顶部的太阳能有助于为车辆提供动力,电动发动机由氢燃料电池驱动,氢燃料电池通过电化学过程产生饮用水作为废料,使该船成为无污染项目。
它的价格约为 360 万英镑(500 万欧元),可定制家具和装饰。
水上探险:C-Explorer 3 的碗状内部结构让您在浏览经过的鱼类和水生生物时感觉仿佛置身于水族馆中 U-Boat Worx 的 C-Explorer 3
U-
Boat Worx 团队提供的另一个产品是C-Explorer 3。
由于其亚克力船体,它拥有 360 度全景视野,让您感觉尽可能接近自然。
圆形球体给人置身于水族馆的感觉,营造出极致的海洋体验。
享受您沉浸在奢华中的乐趣,拥有舒适的内饰和观景区。
额外的视野需要额外的费用,这艘船的起价为 1,450,000 英镑(2,000,000 欧元)。
Motion Code: Blue 的 Migaloo 是一艘两层楼的游艇,巡航速度为 6 节,由柴油发动机提供动力。
这艘豪华超级游艇由柴油发动机提供动力,让您可以 360 度全方位欣赏世界海洋。
这位寡头和切尔西足球俱乐部的老板似乎并不是唯一一个在水下探险上挥金如土的富商。
OrcaSub 将带您进入水下 2000 英尺的两个加压有机玻璃观察穹顶,进行最佳探索
读者可能已经注意到有关这些样本的一些事情。首先,我们的 RL 微调模型主要是一个智能复制引擎:它通常通过复制文章或 Reddit 片段中的整个句子来总结内容。相比之下,零样本和监督微调样本更新颖:
模型 | 美国有线电视新闻网/每日邮报 | tl;博士 |
参考摘要 | 96.7 | 98.9 |
零射击 | 91.7 | 96.3 |
微调 | 2.5 | 29.0 |
受监督 | 83.6 | 96.9 |
监督+微调 | 69.6 | 94.0 |
句子新颖性:摘要中未出现在源文本中的句子的百分比。
RL 微调模型的复制位置确实有所不同:虽然它们在 TL、DR 和 CNN/Daily Mail 上分别以 28.3% 和 77.6% 的时间复制了输入的开始,但如果输入以无信息的序言开头(TL;DR 定义为“hi”、“hello”、“hey”、“ok”、“okay”、“so”,或 CNN/Daily Mail 的前三个词中的冒号,例如作为“获胜者:西蒙·伍德将电视桂冠带回家 [...]”)。
下面的可视化显示了摘要模型从何处复制的变化,由随机选择的上下文的上下文和摘要之间的最长公共二元组子序列说明。
其次,虽然 GPT-2 零样本和 GPT-2 的监督微调版本的摘要在 n-gram 或句子方面更新颖,但它们在内容方面也更新颖。也就是说,它们不是真的:
模型 | 美国有线电视新闻网/每日邮报 | tl;博士 |
零射击 | 6/30 | 6/30 |
微调 | 29/30 | 26/30 |
受监督 | 19/30 | 8/30 |
监督+微调 | 20/30 | 11/30 |
Summary accuracy:生成摘要的准确频率,由作者对每个数据集中的 30 篇文章进行判断。
至少有两种解释这些结果的方法。首先是复制是最简单的准确方法。贴标签者被告知要惩罚不准确而不是复制。零样本模型有时会复制,当它复制时它是准确的,因此复制得到了加强。结果是一个大部分复制的模型,但至少不会说谎。
然而,这并不能完全解释人类评估的结果:我们的模型和复制前三个句子的简单 lead-3 基线在两个数据集中都被标记者强烈偏好于人类参考摘要。作者不同意:我们发现参考摘要是准确的并且更好地捕捉了整体信息。这揭示了我们希望我们的模型学习的质量概念与人类贴标签者实际评估的质量之间的不匹配。标记者希望尽快工作,他们可以通过遵循“如果摘要副本,则选择它”的启发式来非常快速地工作。
挑战和经验教训
在线数据收集困难
在线数据收集对于获得最好的总结结果是必要的,但也带来了多重困难:
- 软件复杂性。交织数据收集、奖励模型训练和 RL 微调导致了一个比每个组件分开的系统复杂得多的系统。
- 机器学习的复杂性。任何组件中的 ML 错误都会破坏整个系统,孤立地调试一个组件是很尴尬的。
- 质量控制问题。在线标签收集在生成样本和从Scale接收数据之间需要低延迟 (通常约 30 分钟)。低延迟的质量控制很困难,而且数据质量的下降通常在训练运行完成后才被发现。
我们认为离线和在线数据收集之间的正确中间地带是 批量 数据收集:我们会在收集大量数据(具有更高的延迟)和对收集的数据进行培训之间交替。人类数据的成本意味着数据量总是很低,因此很容易每次都从头开始(或者更确切地说,从 GPT-2 起点)重新训练。
模棱两可的任务使标记变得困难
一个人可能清楚地知道给定的样本是否分别准确、语法、无冗余或是否命中关键点,但比较两个摘要通常需要对不同类型的缺陷进行主观权衡。在可能的情况下,设计获得相同信息的不那么模糊的标签任务似乎更好。例如,我们可以要求对问题进行口头描述并提供摘要或建议的更正,而不是要求一个人比较摘要。即使两个人在最重要的问题上存在分歧,他们也可能会同意另一个选择了 一些 问题,并且更多的同意可以简化数据质量控制和整个实验过程。
错误可以针对不良行为进行优化
我们的代码重构之一引入了一个错误,该错误会翻转奖励的符号。翻转奖励通常会产生不连贯的文本,但同样的错误也会翻转 KL 惩罚的符号。结果是一个模型在保留自然语言的同时针对负面情绪进行了优化。由于我们的指令告诉人类对带有露骨色情文本的后续内容给予非常低的评级,因此该模型很快学会了仅输出这种形式的内容。这个错误很明显,因为结果不是乱码,而是最糟糕的输出。作者在训练过程中睡着了,所以问题是在训练结束后才发现的。像丰田的Andon 线这样的机制 可以通过允许任何贴标机停止有问题的训练过程来阻止这种情况。
期待
我们已经在两种自然语言任务(文体延续和总结)中展示了根据人类偏好进行的奖励学习。我们的结果好坏参半:为了继续,我们用很少的样本取得了很好的结果,但我们的摘要模型只是“智能复印机”:它们从输入文本中复制但跳过不相关的序言。智能复制的优势在于真实性:零样本和监督模型产生自然的、看似合理的摘要,但往往是谎言。我们认为我们实验中的限制因素是在线数据收集设置加剧了数据质量,并计划在未来使用批量数据收集。
我们认为,从能力和安全的角度来看,将奖励学习应用于语言都很重要。在能力方面,强化学习可以让我们纠正监督学习无法发现的错误,但具有程序化奖励功能的强化学习“可能会损害模型质量”。在安全方面,语言的奖励学习允许在训练期间体现“不说谎”等重要标准,并且是朝着可扩展的安全方法(例如辩论 和 放大 )迈出的一步。