转载

OpenAI研究 语言模型是少数学习者

最近的工作表明,通过对大量文本语料库进行预训练,然后对特定任务进行微调,许多 NLP 任务和基准测试取得了实质性进展。虽然在体系结构中通常与任务无关,但此方法仍然需要特定于任务的微调数据集,其中包含数千或数万个示例。相比之下,人类通常只能通过几个例子或简单的指令来执行一项新的语言任务——这是当前的 NLP 系统在很大程度上仍然难以做到的。在这里,我们展示了扩大语言模型极大地提高了与任务无关的、少样本的性能,有时甚至可以与之前最先进的微调方法相媲美。具体来说,我们训练 GPT-3,这是一种具有 1750 亿个参数的自回归语言模型,比以前的任何非稀疏语言模型多 10 倍,并测试其在少镜头设置中的性能。对于所有任务,GPT-3 都在没有任何梯度更新或微调的情况下应用,任务和小样本演示完全通过与模型的文本交互来指定。GPT-3 在许多 NLP 数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解读单词,在句子,或执行 3 位数算术。同时,我们还确定了一些 GPT-3 的少样本学习仍然困难的数据集,以及一些 GPT-3 面临与大型网络语料库训练相关的方法论问题的数据集。最后,我们发现 GPT-3 可以生成新闻文章样本,人类评估者很难将这些文章与人类撰写的文章区分开来。我们总体上讨论了这一发现和 GPT-3 的更广泛的社会影响。

详细论文