转载

OpenAI研究 GPT-2:6 个月的随访

在 2 月发布小型 124M 模型、5 月分阶段发布355M 中型模型  ,以及随后与合作伙伴和 AI 社区对该模型被滥用和滥用的可能性进行研究之后,我们将发布 7.74 亿参数的 GPT-2 语言模型。社会效益。我们还发布了一项开源法律协议,使组织更容易彼此建立模型共享伙伴关系,并发布了一份技术报告,介绍我们在与更广泛的 AI 研究社区就出版规范进行协调方面的经验。


我们学到的关键事情

1. 协调是困难的,但也是可能的。迄今为止,还没有公开发布 1558M 参数语言模型,尽管多个组织已经开发了系统来训练它们,或者公开讨论了如何训练更大的模型。例如,NLP 开发人员 Hugging Face 和  华盛顿大学 艾伦人工智能研究所(AI2) 的团队都明确采用了与我们类似的分阶段发布方法。自 2 月以来,我们已经与超过五个复制 GPT-2 的团队进行了交谈。A[A]

进行这些对话很困难,因为它涉及坦诚地谈论专有系统,并且不清楚在特定组织中与谁联系以讨论此类模型以及组织间讨论未发布研究的适当流程是什么。

2.人类可以被合成文本说服。我们的研究合作伙伴康奈尔大学的 Sarah Kreps 和 Miles McCain 在 《外交事务》上发表的  研究表明,人们发现 GPT-2 合成文本样本几乎与《纽约时报》的真实文章一样令人信服(一组中 72% 的人认为这些文章是可信的)( 83%)。[乙]

这些样本是通过“人在环路”过程生成的,旨在模拟当代的虚假信息操作,其中人类生成样本并定期选择一些样本以暴露给人们。

 此外,AI2/UW 的研究表明,由名为“GROVER”的系统编写的新闻 比人工编写的宣传更可信。这些研究结果让我们普遍对发布语言模型更加谨慎。

3.检测不简单。在实践中,我们希望检测器需要检测出相当一部分误报率非常低的世代。恶意行为者可能会使用各种采样技术(包括拒绝采样)或微调模型来逃避检测方法。一个部署的系统可能需要在不同的世代上都具有很高的准确性 (99.9%–99.99%)。我们的研究表明,当前基于 ML 的方法只能达到 90 年代中期的低准确度,并且微调语言模型会进一步降低准确度。有前景的前进道路(尤其是“ GROVER”)但这是一个真正困难的研究问题。我们认为,文本的统计检测需要辅以人类判断和与文本相关的元数据,才能有效打击语言模型的滥用。

伙伴关系

我们与四家领先的研究机构合作,对新发布的 774M 参数 GPT-2 模型和未发布的全尺寸 GPT-2 模型进行了分析。我们在技术报告中包含了他们的一些初步结果,他们正在进行的分析将考虑 1558M 模型的潜在发布。我们还制定了一项非商业法律协议,以促进组织之间的模型共享,并在此处发布它以帮助其他人发起此类共享计划。

  • 康奈尔大学 正在研究人类对语言模型生成的数字虚假信息的敏感性。
  • 米德尔伯里国际 恐怖主义、极端主义和反恐研究中心 (CTEC) 正在探索 GPT-2 如何被恐怖分子和极端分子在线滥用。
  • 俄勒冈大学 正在开发一系列“偏差探针”来分析 GPT-2 中的偏差。
  • 德克萨斯大学奥斯汀分校 正在研究在特定领域数据集上微调模型后 GPT-2 输出的统计可检测性,以及跨不同语言模型的检测转移程度。

未来的发布决定

这些合作伙伴的研究将影响我们未来的发布决策,观察 774M 模型的使用方式,以及与研究人员和政策制定者讨论语言模型以了解围绕更大模型的考虑因素。作为我们分阶段发布策略的一部分,我们目前的计划是在几个月内发布 1558M 参数模型,但合作伙伴的发现或对我们 774M 模型的恶意使用可能会改变这一点。

我们认为分阶段发布和基于伙伴关系的模型共享的结合可能是 AI 负责任发布的关键基础,特别是在强大的生成模型的背景下。随着时间的推移,大型模型固有的问题将会增加,而不是减少。我们希望我们在 GPT-2 上的工作(在  我们发布的技术报告中进一步讨论)将有助于提供证据,供 AI 社区在思考 AI 研究的某些部分固有的出版挑战时可以借鉴。

时间线

脚注

  1. 进行这些对话很困难,因为它涉及坦诚地谈论专有系统,并且不清楚在特定组织中与谁联系以讨论此类模型以及组织间讨论未发布研究的适当流程是什么。↩︎

  2. 这些样本是通过“人在环路”过程生成的,旨在模拟当代的虚假信息操作,其中人类生成样本并定期选择一些样本以暴露给人们。↩︎