转载

OpenAI研究 通过无监督学习提高语言理解

我们已经通过一个可扩展的、与任务无关的系统在一系列不同的语言任务上获得了最先进的结果,我们也将发布该系统。我们的方法结合了两个现有的想法:  transformers 和 无监督预训练。这些结果提供了一个令人信服的例子,证明将监督学习方法与无监督预训练相结合效果非常好;这是许多人过去探索过的想法,我们希望我们的结果能够激发进一步的研究,将这一想法应用于更大、更多样化的数据集。

数据集任务SOTA我们的
SNLI文本蕴涵89.389.9
MNLI 匹配文本蕴涵80.682.1
MNLI 不匹配文本蕴涵80.181.4
科学尾巴文本蕴涵83.388.3
秦立文本蕴涵82.388.1
即食即食文本蕴涵61.756.0
STS-B语义相似度81.082.0
QQP语义相似度66.170.3
MRPC语义相似度86.082.3
种族阅读理解53.359.0
中华民国故事常识推理77.686.5
美洲杯常识推理71.278.6
SST-2情绪分析93.291.3
可乐语言可接受性35.045.4
胶水多任务基准68.972.8

我们的系统分两个阶段工作;首先,我们以无监督的方式在大量数据上训练一个 Transformer 模型——使用语言建模作为训练信号——然后我们在更小的监督数据集上微调这个模型,以帮助它解决特定任务。我们根据我们的 情绪神经元开发了这种方法 工作,其中我们注意到,在对足够的数据进行训练时,无监督学习技术可以产生令人惊讶的判别特征。在这里,我们想进一步探讨这个想法:我们是否可以开发一个模型,以无监督的方式在大量数据上训练它,然后微调模型以在许多不同的任务上取得良好的性能?我们的结果表明这种方法效果出奇地好;相同的核心模型可以针对非常不同的任务进行微调,而适应性极小。

这项工作建立在 半监督序列学习中引入的方法的基础上,该方法展示了如何通过使用 LSTM 的无监督预训练然后进行监督微调来提高文档分类性能。它还扩展了 ULMFiT,该研究展示了如何微调与数据集无关的单个 LSTM 语言模型,以在各种文档分类数据集上获得最先进的性能;我们的工作展示了如何在这种方法中使用基于 Transformer 的模型来成功完成文档分类以外的更广泛的任务,例如常识推理、语义相似性和阅读理解。它也类似于ELMo但与任务无关 ,它结合了预训练,但使用任务定制架构在广泛的任务上获得最先进的结果。

使用很少的调整来实现我们的结果。所有数据集都使用单一的前向语言模型,没有任何集成,并且大多数报告的结果使用完全相同的超参数设置。

我们特别兴奋的结果是我们的方法在三个数据集(COPA、  RACE和 ROCStories)上的性能,这些数据集旨在测试常识推理和阅读理解。我们的模型在这些数据集上大幅获得了最新的最新结果。这些数据集被认为需要多句推理和重要的世界知识才能解决,这表明我们的模型主要通过无监督学习来提高这些技能。这表明有希望通过无监督技术开发复杂的语言理解能力。

为什么是无监督学习?

监督学习是机器学习最近取得成功的核心。但是,创建数据集才能正常工作可能需要大量、仔细清理且成本高昂。无监督学习很有吸引力,因为它有可能解决这些缺点。由于无监督学习消除了显式人工标记的瓶颈,因此它还可以很好地适应当前 增加计算 和原始数据可用性的趋势。无监督学习是一个非常 活跃 研究领域  ,但它的实际应用通常仍然有限。

最近有人试图通过使用无监督学习来增强具有大量未标记数据的系统来进一步提高语言能力;通过无监督技术训练的单词表示可以使用包含数 TB 信息的大型数据集,并且当与监督学习相结合时,可以提高各种 NLP 任务的性能。直到最近,这些用于 NLP 的无监督技术(例如GLoVe 和word2vec)使用简单模型(词向量)和训练信号(词的局部共现)。 跳过思维向量 是更复杂的方法可以实现的潜在改进的一个值得注意的早期演示。但现在正在使用新技术,进一步提高性能。这些包括使用预训练的句子表示模型、上下文词向量(特别是 ELMoCoVE),以及使用定制架构将无监督预训练与有监督微调融合的方法,就像我们自己的一样。

两个并排的图表展示了零镜头传输如何直接加速监督微调

我们还注意到我们可以使用底层语言模型开始执行任务,而无需对它们进行培训。例如,随着底层语言模型的改进,诸如选择多项选择题的正确答案等任务的性能稳步提高。虽然与有监督的最新技术相比,这些方法的绝对性能通常仍然很低(对于问题回答,它仍然优于简单的滑动窗口基线),但令人鼓舞的是,这种行为在广泛的集合中是稳健的的任务。不包含有关任务和世界的信息的随机初始化网络的性能并不比使用这些启发式的随机网络好。这提供了一些关于为什么生成预训练可以提高下游任务性能的见解。

我们还可以使用模型中现有的语言功能来执行情感分析。对于由正面和负面电影评论的句子组成的 Stanford Sentiment Treebank 数据集,我们可以使用语言模型来猜测评论是正面的还是负面的,方法是在句子后面输入单词“very”并查看模型是否预测更可能使用“正面”或“负面”一词。这种方法在完全不调整模型以适应任务的情况下,与经典基线的表现相当 ~80% 准确率

我们的工作也是对 transformer 架构的稳健性和实用性的验证,表明它具有足够的灵活性,可以在广泛的任务上实现最先进的结果,而无需复杂的任务特定定制或超参数调整。

缺点

该项目有几个值得注意的突出问题:

  • 计算要求:许多以前的 NLP 任务方法从头开始在单个 GPU 上训练相对较小的模型。我们的方法需要昂贵的预训练步骤——在 8 个 GPU 上训练 1 个月。幸运的是,这只需要做一次,我们正在发布我们的模型,这样其他人就可以避免它。它也是一个大型模型(与之前的工作相比),因此使用更多的计算和内存——我们使用了 37 层(12 块)Transformer 架构,并且我们训练了多达 512 个标记的序列。大多数实验是在 4 和 8 GPU 系统上进行的。该模型确实可以非常快速地微调新任务,这有助于减轻额外的资源需求。
  • 通过文本了解世界的局限性和偏见:互联网上现成的书籍和文本不包含关于世界的完整甚至准确信息。 最近的研究 表明,某些类型的信息很难仅通过文本来学习,而 其他工作 表明模型可以学习和利用数据分布中的偏差。
  • 仍然脆弱的概括:尽管我们的方法提高了广泛任务的性能,但当前的深度学习 NLP 模型仍然表现出令人惊讶和违反直觉的行为——尤其是在以系统的、对抗性的或分布外的方式进行评估时。尽管我们已经观察到一些进展迹象,但我们的方法并不能避免这些问题。我们的方法显示出比以前的纯神经文本蕴涵方法更好的词汇稳健性。在 Glockner 等人介绍的数据集上 。(2018) 我们的模型达到了 83.75%,表现与 KIM相似,后者通过 WordNet 整合了外部知识。

未来

  • 扩展方法:我们观察到语言模型性能的改进与下游任务的改进密切相关。我们目前使用的是商品硬件(一台 8 GPU 机器)和只有几千本书(约 5GB 文本)的训练数据集。这表明使用更多计算和数据的经过充分验证的方法还有很大的改进空间。
  • 改进的微调:我们的方法目前非常简单。使用更复杂的适应和传输技术(例如ULMFiT中探讨的技术)可能会做出实质性改进 。
  • 更好地理解为什么生成式预训练有帮助:虽然我们已经讨论了一些我们偏爱的想法,但更有针对性的实验和研究将有助于区分相互竞争的解释。例如,我们观察到的好处中有多少是由于提高了处理更广泛背景的能力与提高了世界知识?

附录:数据集示例

数据集例子标签
SNLI1. 一辆黑色赛车在一群人面前启动。2. 一个人在孤独的路上行驶。魂斗罗。
科学尾巴1. 因为 1 型糖尿病是一种相对罕见的疾病,所以只有当您知道您的孩子有患该病的特殊风险时,您才希望将重点放在预防上。2. 第一类糖尿病无法预防,但第二类糖尿病可以通过饮食预防。中性的
秦立背景:在气象学中,降水是大气水蒸气在重力作用下凝结的任何产物。陈述:什么导致降水下降?包含
即食即食1. 当一名女子因为不想看比赛而刺伤了她的伴侣时,围绕德国队决赛的激情变得激烈起来。2. 一位女士热情地想观看比赛。魂斗罗。
STS-B1、它们成群结队地飞出巢穴。2.他们一起飞进了巢穴。相似度 2/5
QQP1.什么是自然数 2.最小的自然数是什么不一样
MRPC1. 科学家称,如果人们每天服用这种药丸,他们患心脏病和中风的风险将降低 88%,中风的风险降低 80%。2. 科学家说,服用这种药丸可将心脏病发作的风险降低 88%,中风的风险降低 80%。相同的
种族大约 150 年前,在英国的一个小村庄里,一辆邮车停在街上。它不常来那个村子。人们不得不花很多钱才能收到一封信。寄信人不必支付邮资,而收信人则必须支付。“这是给爱丽丝·布朗小姐的一封信,”邮递员说。“我是爱丽丝布朗,”一个18岁左右的女孩小声说。爱丽丝看了信封一分钟,然后把它还给了邮递员。“对不起,我不能接受,我没有足够的钱来支付,”她说。站在旁边的一位先生很为她难过。然后他上前替她付了邮费。当这位先生把信交给她时,她笑着说:“非常感谢,这封信是汤姆寄来的。我要嫁给他。他去伦敦找工作。这封信我等了很久 但现在我不需要它,里面什么都没有。” “真的吗?你怎么知道?” 先生惊讶的说道。“他告诉我他会在信封上贴上一些标志。看,先生,角落里的这个十字表示他很好,这个圆圈表示他找到了工作。那是好消息。” 这位绅士是罗兰·希尔爵士。他没有忘记爱丽丝和她的信。“收件人要付的邮费得改了。”他自言自语,心想事成。“邮费肯定低很多,一分钱怎么样?寄信人支付邮资。他必须买一张邮票贴在信封上。” 他说 。政府接受了他的计划。然后在 1840 年发行了第一张邮票。它被称为“黑便士”。上面有一张女王的照片。女孩把信还给了邮递员,因为: 1.4个
中华民国故事凯伦在大学一年级时被分配了一个室友。她的室友让她去附近的城市听音乐会。凯伦高兴地答应了。这个节目绝对令人振奋。1. 凯伦和她的室友成了好朋友。2. 凯伦讨厌她的室友。1个
美洲杯那人摔断了脚趾。这是什么原因?1. 他的袜子上有个洞。2. 他把锤子砸在脚上。2个
SST-2在这种疯狂和光明的明暗对比中,创造层次丰富的图像所涉及的劳动是惊人的。积极的
可乐当你吃得最多时,你想要的最少。不能接受的

计算

我们越来越有兴趣了解 我们在训练模型上花费的计算与结果输出之间的关系。用于训练此模型的总计算量为 0.96 petaflop 天 (pfs-days)。

8 P600 GPU's * 30 days * 12 TFLOPS/GPU * 0.33 utilization = 
= .96 pfs-days
无效的

详细论文