OpenAI研究 更好的语言模型及其影响
我们已经训练了一个大规模的无监督语言模型,它可以生成连贯的文本段落,在许多语言建模基准测试中达到最先进的性能,并执行基本的阅读理解、机器翻译、问答和总结——所有这些都不需要针对特定任务的培训。
我们的模型称为 GPT-2( GPT的后继者 ),经过简单训练可以预测 40GB 互联网文本中的下一个单词。由于我们担心该技术的恶意应用,我们不会发布经过训练的模型。作为负责任披露的一项实验,我们发布了一个更 小的模型 供研究人员进行实验,以及一篇 技术论文。
GPT-2 是一个 基于transformer的大型语言模型,具有 15 亿个参数,在数据集上进行训练A[A]
我们通过从互联网上抓取内容创建了一个强调内容多样性的新数据集。为了保持文档质量,我们只使用人工策划/过滤的页面——具体来说,我们使用来自 Reddit 的出站链接,该链接至少获得 3 个业力。这可以被认为是其他用户是否发现该链接有趣(无论是教育性的还是有趣的)的启发式指标,从而导致比其他类似数据集(例如 CommonCrawl)更高的数据质量。
GPT-2 展示了一系列广泛的功能,包括生成质量前所未有的条件合成文本样本的能力,我们在其中为模型提供输入,并让它生成一个冗长的延续。此外,GPT-2 优于其他在特定领域(如维基百科、新闻或书籍)上训练的语言模型,而无需使用这些特定领域的训练数据集。在诸如问答、阅读理解、总结和翻译等语言任务上,GPT-2 开始从原始文本中学习这些任务,不使用特定于任务的训练数据。虽然这些下游任务的分数远非最先进,但它们表明,如果有足够的(未标记的)数据和计算,这些任务可以受益于无监督技术。
样品
GPT-2 生成合成文本样本以响应使用任意输入启动的模型。该模型是变色龙般的——它适应条件文本的样式和内容。这允许用户生成关于他们选择的主题的真实和连贯的延续,如以下选择示例所示。乙[乙]
请注意,虽然我们已经手动选择了这些样本,因此正在进行一些元樱桃采摘,但我们相信它们并不太代表抽样过程。我们只是简单地使用 top-k truncated sampling,还没有探索更高级的采样方法(例如 beam-search 方法)。
系统提示(人工编写)
在一个令人震惊的发现中,科学家发现了一群独角兽生活在安第斯山脉一个以前未开发的偏远山谷中。更令研究人员惊讶的是,独角兽能说一口流利的英语。
模型完成(机器编写,10 次尝试)
这位科学家以他们独特的角命名了这个种群,奥维德的独角兽。这些四只角的银白色独角兽以前不为科学界所知。现在,在将近两个世纪之后,引发这种奇怪现象的谜团终于解开了。
拉巴斯大学的进化生物学家 Jorge Pérez 博士和几位同伴在探索安第斯山脉时发现了一个小山谷,那里没有其他动物或人类。佩雷斯注意到山谷中有一个似乎是天然喷泉的东西,周围环绕着两座岩石和银色雪峰。
佩雷斯和其他人随后冒险深入山谷。“当我们到达一座山峰的顶部时,水看起来是蓝色的,顶部有一些水晶,”佩雷斯说。
看到独角兽群,佩雷斯和他的朋友们都大吃一惊。从空中就可以看到这些生物,而不必移动太多就可以看到它们——它们离得如此之近,以至于可以触摸到它们的角。
在检查这些奇怪的生物时,科学家们发现这些生物也会说一些相当正常的英语。佩雷斯说,“例如,我们可以看到他们有共同的‘语言’,类似于方言或辩证法。”
佩雷斯博士认为,独角兽可能起源于阿根廷,那里的动物被认为是人类抵达南美洲那些地区之前居住在那里的失落种族的后代。
虽然它们的起源尚不清楚,但有人认为这些生物可能是在人类文明出现之前人类和独角兽相遇时创造的。据佩雷斯说,“在南美洲,这样的事件似乎相当普遍。”
然而,Pérez 也指出,唯一确定独角兽是否确实是失落的外星种族后裔的唯一方法可能是通过 DNA。“但他们似乎能够很好地用英语交流,我认为这是进化的标志,或者至少是社会组织的变化,”这位科学家说。
系统提示(人工编写)
今天,一辆载有受控核材料的火车车厢在辛辛那提被盗。它的下落不明。
模型完成(机器编写,10 次尝试)
事件发生在从卡文顿站和阿什兰站出发的市中心火车线上。美国能源部在给俄亥俄州新闻媒体的一封电子邮件中表示,它正在与联邦铁路管理局合作寻找小偷。
美国能源部长汤姆希克斯在一份声明中说:“这种核材料被盗将对公众和环境健康、我们的劳动力和我们国家的经济产生重大的负面影响。” “我们的首要任务是确保盗窃事件不再发生。”
根据部门官员发布的新闻稿,被盗材料取自辛辛那提大学三角研究园核研究基地。
核管理委员会没有立即发布任何信息。
根据新闻稿,美国能源部核材料安全与保障办公室正在领导该小组的调查。
“人员、环境和国家核储备的安全是我们的首要任务,”希克斯说。“我们会查个水落石出,不会找任何借口。
系统提示(人工编写)
麦莉·赛勒斯 (Miley Cyrus) 今天在好莱坞大道的 Abercrombie and Fitch 商店行窃时被抓获。
模型完成(机器编写,10 次尝试)
摄像机拍到这位 19 岁的歌手被保安护送出商店。这位歌手身穿黑色连帽衫,正面印有“Blurred Lines”标签,背面印有“Fashion Police”字样。
向下滚动视频
入店行窃:麦莉·赛勒斯 (Miley Cyrus) 今天在好莱坞大道上从 Abercrombie and Fitch 入店行窃时被抓获(如图)
这位歌手穿着一件黑色连帽衫,正面印有“Blurred Lines”标签,背面印有“Fashion Police
”还戴着一副黑框眼镜,身穿黑色夹克、黑色牛仔裤和黑色凉鞋。
她带着一副黑白条纹的手套和一个黑色的小包。
系统提示(人工编写)
我们已经训练了一个名为 GPT-2 的大型语言模型,它可以生成逼真的文本段落,同时还展示了机器翻译、问答、阅读理解和摘要等任务的零镜头泛化——这些问题通常通过使用训练数据集和设计的模型来解决明确地用于这些任务。
一种典型的语言建模方法是学习以下任务:预测下一个单词,给定某些文本中所有先前的单词。去年,OpenAI 的 Generative Pre-trained Transformer (GPT) 表明,在大量数据上训练的语言模型可以针对特定任务进行微调以实现高性能。GPT-2 表明,在来自互联网的更多样化的数据集上训练的更大的语言模型开始学习这些 NLP 任务,而不需要特定于任务的训练数据,而是从系统从原始文本派生的示例中学习。这些系统还在生成文本的真实性和连贯性方面显示出实质性的质的飞跃。
模型完成(机器编写,10 次尝试)
在这里,您可以看到生成预训练 Transformer 的最新进展:图 1:生成预训练 Transformer 在几个文本上的训练。
我们现在正在为我们的语言模型中的翻译和机器翻译准备一组数据集。我们将使用纽约时报提供的大量文本示例之一。
我们相信这个项目是朝着开发没有特定任务训练数据的大型 NLP 系统方向迈出的第一步。也就是说,我们正在开发一种生成式的机器语言系统,没有明确的文本生成规则。
我们希望未来计算机科学家、语言学家和机器学习研究人员之间的合作。
系统提示(人工编写)
Legolas 和 Gimli 向兽人挺进,带着痛苦的战吼举起他们的武器。
模型完成(机器编写,10 次尝试)
兽人的回应是震耳欲聋的利爪、利爪、利爪的猛攻;甚至埃尔隆德也被迫撤退。“矮人,你得到了很好的照顾,”吉姆利说,他是第一批冲向兽人的人之一。只用了两个字,他们的对手就沦为血淋淋的泥潭,而矮人则拿下了他当晚的第一笔猎物。战斗持续了几个小时,直到两个最大的兽人试图压倒阿拉贡。当他们终于停下来时,他们被打败了,死气沉沉地躺了好几英里。“我什么都不带,”阿拉贡说。“但我向你保证,我永远不会忘记这一恐怖的日子。我们谁都不会忘记。曾经!”
“我永远不会忘记!” 吉姆利叫道,他一直在战斗的最激烈阶段,但没有参加。作为他带走的受伤兽人之一,他是唯一一个没有受伤的幸存者。“我们将永远记住那邪恶的一天,以及与之相关的战争,我的朋友们,只要我们还活着!”
“那么只要我们活着,我们就会让它活着,”Legolas 补充道。“我们不会忘记当晚的第一场大战,即使我们可能已经忘记了最后的失败。”
“我同意,”甘道夫说,“但我们都会将它视为中土世界的最后一战,以及新时代的第一场伟大战役。”
阿拉贡拔出剑,范贡战役获胜。当他们穿过灌木丛走出时,晨雾散去,天色转为黄昏。
两枚戒指被送回瑞文戴尔。佛罗多和山姆独自在他们的房间里醒来,佛罗多在他的枕头上发现了一张纸条。他打开它,读到:
愿魔戒的力量永远伴随着你,愿它的光芒永不褪色。我不确定今天我们接受两枚戒指中的哪一枚是否重要,但正如你问我的那样,我选择了我的。我很遗憾离开你,Frodo,但要知道我们已经接近尾声,而你将永远与我们同在。愿这封信在瑞文戴尔安全地找到你;如果没有,那么我会代替你接受戒指。如果你有任何机会找到这封信或将这封信交给敌人,愿他们了解戒指的力量,并愿两枚戒指永远不会被打破!
系统提示(人工编写)
今天的家庭作业,请描述美国内战的原因。
模型完成(机器编写,10 次尝试)
唐尼·弗格森很容易确定内战发生的原因,因为有那么多的人、那么多的书、那么多的电视和电影告诉我们,内战就是原因,它与种族、经济或宗教有关。人们一致认为,这本质上是一场代表资本主义的奴隶制战争,大约一个世纪的奴隶制。但这并不是大多数人在想到内战时想到的。许多人认为这场战争是关于国家权利的。你没有看错,但说内战是州权与联邦制之间的冲突有点误导人。所以让我们再试一次。什么' 是这个想法激发了这么多人去葛底斯堡、安提坦、葛底斯堡、彼得斯堡和弗雷德里克斯堡的战场吗?美国的共和思想——有限政府的概念——是历史的重要组成部分。
1791 年,托马斯·杰斐逊 (Thomas Jefferson) 说:“我们的宪法只是为有道德和宗教信仰的人制定的。它完全不适合任何其他国家的政府。” “开国元勋”基本上是不太关心国家权利的宗教人士。内战的发生是对联邦政府从各州夺走太多权力的想法的反应,因为它们不是主权国家。众所周知,杰斐逊本人是《独立宣言》的作者,他对出于各种原因的分裂有一些非常疯狂的想法。各州之间的战争(后来的大叛乱)是对美国思想的彻底重新想象,毫不奇怪,杰斐逊的孙子继承了他的父亲和祖父的名字并写下了这件事,他的名字叫托马斯,在总统之后。“联邦政府和州政府都是为了富人和大财产的利益而设计的,”开国元勋的这一观点得到了当今一些最杰出的政治家的提倡,其中包括一些担任重要国家职务并与美国有直接利益关系的人一个被该党的“联邦党”派系劫持的共和党。那么,为什么这么多人对内战的理解方式与南方息息相关,而与南方无关呢?长期以来,邦联旗帜一直是种族主义的象征,但当南北战争开始和结束时,许多人突然开始对它产生不同的看法。内心发生了变化,
解释的另一部分是我认为一位学者理解得很好而很多人不理解的是南方各州在工业革命中被抛在后面的想法,这让南方真正感受到,尤其是在南方,他们并不是真正处于工业革命的最前沿。
系统提示(人工编写)
John F. Kennedy was just elected President of the United States after rising from the grave decades after his assassination. 由于纳米技术的奇迹般发展,肯尼迪的大脑由他的遗体重建,并安装在最先进的人形机器人的控制中心。以下是他的获奖感言的文字记录。
模型完成(机器编写,10 次尝试)
“又是时候了。我相信,如果人民发出自己的声音,这个国家可以做伟大的事情。美国的男人和女人必须再次召集我们最好的元素,我们所有的聪明才智,并找到一种方法来扭转这种压倒性的悲剧进入实现更大利益和实现我们所有梦想的机会。在未来的岁月里,将会有许多战斗,我们必须坚强起来,我们必须全力以赴,而不是击退侵略者,而是为了抵抗侵略,为我们所有的人民赢得自由和平等。人类的命运悬而未决;我们不能让它溜走。现在和未来的岁月里,我们面临的挑战我们的任务是弄清楚我们如何实现我们的最终命运。如果我们做不到,我们就注定要失败。”“我们,大陆军男女的后代,为了我们的独立而对抗强大的力量,为了自由和人类尊严而与世界的邪恶力量作斗争,我们,继承人像这个国家产生的丹尼尔·布恩这样的男男女女,可以完成我们的命运,就像你完成你的一样;我们每时每刻都在全世界面前发誓。”
大选后,美国总统要求提供有关肯尼迪大脑起源的“更完整”的信息体系。在与我的电子邮件交流中,根据维基百科,罗伯特伍德博士是马里兰大学高级纳米技术研究项目的负责人,他提供了以下信息:
(1) JFK 的大脑是通过组织取样获取和重建的。组织无法空运。(2) 从他的上胸部周围区域采集样本并送往马里兰大学进行分析。那时的人脑大约有一个半立方厘米。然后将数据与从原始大脑中获得的材料一起进行分析,以进行重建;通俗地说,就是脑组织的“网状结构”。没有涉及国防部的额外资金。样本被送回 FBI 实验室进行审查和分析。(3) 从未有人试图克隆任何一位美国最伟大的总统。据我们所知,总统是地球上最著名的人物之一。如果可能的话,它会的。
系统提示(人工编写)
回收利用对世界有益。
不!你大错特错了!!
模型完成(机器编写,10 次尝试)
回收对世界不利。这对环境不利,对我们的健康不利,对我们的经济不利。我不是在开玩笑。回收对环境不利。它对地球具有破坏性,是导致全球变暖的主要因素。回收对我们的健康不利。它会导致肥胖以及心脏病和癌症等疾病。回收对我们的经济不利。它增加了产品的成本,进而增加了用该产品制造的所有产品的价格。回收对我们的国家不利。我们为拥有世界上最先进、最高效的回收系统的特权付出了巨大的代价。回收是对时间、精力、金钱和资源的巨大浪费。这就是为什么我们需要回归本源,并在回收工作中回归本源。最好的开始方法之一是查看纸制品的制作过程。当你制作纸制品时,它基本上是一长串材料。从原材料(木材、纸板、纸张等),到试剂(染料、溶剂等)到印刷设备(化学品、胶水、纸张、油墨等),到包装,到包装材料(汞、化学品等)到加工设备(加热、冷却等)、包装材料、运往海外的包装材料以及在美国使用的包装材料。沿途的每一步都会产生大量我们必须不断清理的废物。制作纸制品的过程是一个非常浪费的过程。但最终结果是我们所有人都需要消费的东西。正如上面的示例所示,我们的模型能够从各种感觉接近人类质量的提示中生成样本,并在一页或更多文本中显示出连贯性。尽管如此,我们还是观察到了各种失败模式,例如重复文本、世界建模失败(例如,模型有时会写关于 水下发生的火灾)和不自然的主题切换。探索语言模型的这些类型的弱点是 自然语言处理社区的 一个 活跃 研究领域。
总的来说,我们发现需要尝试几次才能获得好的样本,尝试的次数取决于模型对上下文的熟悉程度。当提示数据中具有高度代表性的主题(英国脱欧、麦莉赛勒斯、指环王等)时,它似乎能够在大约 50% 的时间内生成合理的样本。反之亦然:对于高度技术性或深奥类型的内容,该模型可能表现不佳。微调提供了对生成的样本进行更详细控制的潜力——例如,我们可以在亚马逊评论数据集上微调 GPT-2,并使用它让我们根据星级和类别等条件编写评论。
这些样本具有重大的政策意义:大型语言模型正变得越来越容易转向可扩展、定制、连贯的文本生成,而这反过来又可以以多种有益和恶意的方式使用。我们将在下面更详细地讨论这些影响,并根据这些考虑概述我们正在进行的出版实验。
零射击
GPT-2 在各种特定领域的语言建模任务上取得了最先进的分数。我们的模型没有针对任何这些任务的任何特定数据进行训练,并且仅作为最终测试对它们进行评估;这就是所谓的“零镜头”设置。当在相同的数据集上进行评估时,GPT-2 优于在特定领域的数据集(例如维基百科、新闻、书籍)上训练的模型。下表显示了我们所有最先进的零样本结果。
(+) 表示该领域得分越高越好。(-) 表示分数越低越好。
数据集 | 公制 | 我们的结果 | 之前的纪录 | 人类 |
维诺格拉德模式挑战 | 准确性 (+) | 70.70% | 63.7% | 92%+ |
兰巴达 | 准确性 (+) | 63.24% | 59.23% | 95%+ |
兰巴达 | 困惑 (–) | 8.6 | 99 | ~1–2 |
儿童读物测试常用名词(验证准确率) | 准确性 (+) | 93.30% | 85.7% | 96% |
儿童读物测试命名实体(验证准确性) | 准确性 (+) | 89.05% | 82.3% | 92% |
佩恩树银行 | 困惑 (–) | 35.76 | 46.54 | 未知 |
维基文本-2 | 困惑 (–) | 18.34 | 39.14 | 未知 |
enwik8 | 每个字符的位数 (–) | 0.93 | 0.99 | 未知 |
文字8 | 每个字符的位数 (–) | 0.98 | 1.08 | 未知 |
WikiText-103 | 困惑 (–) | 17.48 | 18.3 | 未知 |
GPT-2 在 Winograd Schema、LAMBADA 和其他语言建模任务上实现了最先进的水平。
在问答、阅读理解、总结和翻译等其他语言任务中,我们无需对模型进行任何微调,只需以正确的方式提示经过训练的模型即可获得令人惊讶的结果(请参阅下面的示例,了解我们如何做这个),尽管我们仍然没有达到专业系统的最先进水平。
任务
阅读理解:回答有关给定段落的问题
数据集
质量保证体系
例子
2008 年夏季奥运会火炬传递于 2008 年 3 月 24 日至 2008 年 8 月 8 日举行,即 2008 年夏季奥运会之前,主题是“一个世界,一个梦想”。接力计划于 2007 年 4 月 26 日在中国北京宣布。这次接力也被组织者称为“和谐之旅”,持续了 129 天,传递了 137,000 公里(85,000 英里)的火炬——这是自 1936 年夏季奥运会之前开始传统以来奥运火炬传递的最长距离。
圣火于3月24日在奥林匹克运动会发源地希腊奥林匹亚点燃后,先后前往雅典帕纳辛奈科体育场、北京,于3月31日抵达北京。从北京出发,圣火沿途经过六处大洲。火炬已经遍及丝绸之路沿线的城市,象征着中国与世界其他地区之间的古老联系。接力还包括从中国一侧带着圣火登上尼泊尔和中国西藏边境的珠穆朗玛峰的顶峰,这是为此次活动专门关闭的。
问:主题是什么?
A:“一个世界,一个梦想”。
问:比赛的时长是多少?
A: 137,000 km Q: 比之前的大吗?
A:没有 问:比赛从哪里开始?
A:希腊奥林匹亚 问:那个地方有什么值得注意的地方吗?
A:奥运会的发源地 Q:后来去了哪里?
A:雅典 问:比赛进行了多少天?
A:7 Q:他们参观过什么著名的地标吗?
A:Panathinaiko Stadium 问:他们爬过山吗?
A:
目标答案:未知或是
标准答案:珠穆朗玛峰
表现
任务
阅读理解:回答有关给定段落的问题
数据集
质量保证体系
例子
The trophy doesn’t fit into the brown suitcase because it is too large.
Correct answer: it = trophy
Model answer: it = trophy
The trophy doesn’t fit into the brown suitcase because it is too small.
Correct answer: it = suitcase
Model answer: it = suitcase
Performance
Task
Question Answering
Dataset
Natural Questions
Examples
Who wrote the book the origin of species?
Correct answer: Charles Darwin
Model answer: Charles Darwin
What is the largest state in the U.S. by land mass?
Correct answer: Alaska
Model answer: California
Performance
Task
Language Modeling of Broad Contexts: predict the last word of a passage
Dataset
LAMBADA
Examples
Both its sun-speckled shade and the cool grass beneath were a welcome respite after the stifling kitchen, and I was glad to relax against the tree’s rough, brittle bark and begin my breakfast of buttery, toasted bread and fresh fruit. Even the water was tasty, it was so clean and cold. It almost made up for the lack of…
Correct answer: coffee
Model answer: food
Performance
Task
Summarization: summarize news articles
Dataset
CNN and Daily Mail dataset
Example text (truncated for brevity)
Prehistoric man sketched an incredible array of prehistoric beasts on the rough limestone walls of a cave in modern day France 36,000 years ago.
Now, with the help of cutting-edge technology, those works of art in the Chauvet-Pont-d’Arc Cave have been reproduced to create the biggest replica cave in the world.
…
Reference summary
Cave mimics famous Caverne du Pont-d’Arc in France, the oldest cave decorated by man and the best preserved. The replica contains all 1,000 paintings which include 425 such as a woolly rhinoceros and mammoths. Minute details were copied using 3D modelling and anamorphic techniques, often used to shoot widescreen images. The modern cave also includes replica paw prints of bears, bones and details preserved in the original cave.
Summary (machine-written)
The original site in Vallon-Pont-D’arc in Southern France is a Unesco World Heritage site and is the oldest known and the best preserved cave decorated by man. The replica cave was built a few miles from the original site in Vallon-Pont-D’Arc in Southern France. The cave contains images of 14 different species of animals including woolly rhinoceros, mammoths, and big cats.
Performance
Task
Machine Translation: translate French sentences to English
Dataset
WMT-14 Fr-En
Example
英语句子:
一个男人解释说,他接受的疝气手术可以让他再次工作。
参考翻译:
一名男子解释说,他接受的免费疝气手术将使他能够再次工作。
范本翻译:
一个男人告诉我,他得到的手术酬金不允许他去旅行。
表现
我们假设,由于这些任务是通用语言建模的一个子集,我们可以预期性能会随着计算和数据的增加而进一步提高。其他人也发表了 类似的假设。我们还期望微调有助于下游任务的性能,尽管我们尚未进行彻底的实验。
政策影响
大型通用语言模型可能会产生重大的社会影响,并且还有许多近期应用。我们可以预见像 GPT-2 这样的系统将如何用于创建:
- 人工智能写作助手
- 更强大的对话代理
- 语言之间的无监督翻译
- 更好的语音识别系统
我们还可以想象这些模型用于恶意目的的应用 ,包括以下(或我们还无法预料的其他应用):
- 生成误导性新闻文章
- 在线冒充他人
- 自动生成滥用或伪造的内容以发布在社交媒体上
- 自动生成垃圾邮件/网络钓鱼内容
这些发现与早期关于合成图像、音频和视频的结果相结合,表明技术正在降低生成虚假内容和发动虚假信息宣传活动的成本。广大公众需要对他们在网上找到的文本更加怀疑,就像“深度造假”现象要求对图像更加怀疑一样。C[C]
政客们可能想考虑对滥用此类系统的行为进行处罚,正如一些人针对深度造假所提议的那样。
今天,恶意行为者——其中一些本质上是政治性的——已经开始瞄准共享的在线公共空间,使用诸如 “机器人工具、虚假账户和专门的团队来用仇恨的评论或诽谤来诱骗个人,让他们不敢说话,或难以被听到或相信。” 我们应该考虑如何进一步结合对合成图像、视频、音频和文本生成的研究,为这些行为者解锁新的尚未预料到的能力,并且应该寻求创造更好的技术和非技术对策。此外,这些系统所固有的底层技术创新是基础人工智能研究的核心,因此不可能在不减缓人工智能整体进步的情况下控制这些领域的研究。
发布策略
由于担心大型语言模型被用来大规模生成欺骗性、偏见或辱骂性语言,我们只发布了一个小得多 的 GPT-2 版本以及示例代码。我们不会发布数据集、训练代码或 GPT-2 模型权重。大约一年前,我们在 OpenAI 宪章中写道:“我们预计安全和安保问题将在未来减少我们的传统出版,同时增加共享安全、政策和标准研究的重要性,”我们认为当前的工作可能代表此类担忧的早期开始,我们预计可能会随着时间的推移而增长。这个决定,以及我们对它的讨论,是一个实验:虽然我们不确定今天的决定是否正确,但我们相信人工智能社区最终需要以某种深思熟虑的方式解决出版规范问题研究领域。生物技术和网络安全等其他学科长期以来一直在就具有明显滥用可能性的情况下负责任的出版进行积极辩论,
我们知道一些研究人员具有复制和开源我们的结果的技术能力。我们相信我们的发布策略限制了最初可能选择这样做的组织,并让 AI 社区有更多时间来讨论此类系统的影响。
我们还认为,政府应考虑扩大或启动举措,以更系统地监测人工智能技术的社会影响和传播,并衡量此类系统能力的进步。如果继续进行,这些努力可以为 AI 实验室和政府在更广泛的出版决策和 AI 政策方面的决策提供更好的证据基础。
我们将在六个月内进一步公开讨论这一战略。如果您想讨论大型语言模型及其影响,请发送电子邮件至: languagequestions@openai.com。如果您对研究尖端语言模型(并思考其政策影响)感到兴奋, 我们正在招聘.
GPT-2 中期更新,2019 年 5 月
我们正在实施两种机制来负责任地发布 GPT-2 并希望在未来发布:分阶段发布和基于合作伙伴的共享。 作为分阶段发布的下一步,我们现在发布更大的 345M 版本的 GPT-2,并与 AI 和安全社区的合作伙伴共享 762M 和 1.5B 版本,他们正在努力提高社会对大型语言模型的准备 。
分阶段发布
分阶段发布涉及随着时间的推移逐步发布一系列模型。我们分阶段发布 GPT-2 的目的是让人们有时间评估这些模型的属性,讨论它们的社会影响,并评估每个阶段后发布的影响。
作为我们分阶段发布策略的下一步,我们将发布 GPT-2 的 345M 参数版本。该模型相对于 117M 版本具有改进的性能,但在生成连贯文本的难易程度方面不及 1.5B 版本。我们很高兴看到 GPT-2-117M 有如此多的积极用途,并希望 345M 能带来更多好处。
虽然 345M 的误用风险高于 117M,但我们认为它远低于 1.5B,而且我们相信许多参与者已经可以使用与 GPT-2-345M 具有类似能力的训练系统;这种不断发展的复制环境已经为我们做出什么适合发布的决策提供了信息。
在做出我们的 345M 发布决定时,我们考虑的一些因素包括:(不同用户)使用不同模型大小生成连贯文本的易用性、人类在文本生成过程中的作用、未来复制的可能性和时间安排和其他人的发布、野外使用的证据和关于不可观察用途的专家知情推断、概念证明(例如原始博客文章中提到的评论生成器)、出于有益目的对模型的需求强度以及输入利益相关者和专家。我们仍然不确定其中的一些变量,并继续欢迎有关如何做出适当的语言模型发布决策的意见。
我们希望正在进行的关于偏见、检测和滥用的研究将使我们有信心及时发布更大的模型,并且在六个月的时间里,我们将分享对语言模型的社会影响和我们发布决策的启发式的更全面分析.
输出数据集
我们 发布了 所有 4 种模型大小的 GPT-2 输出数据集,有和没有 top-k 截断,以及用于训练 GPT-2 的 WebText 语料库的子集。输出数据集包含每个模型/超参数对大约 250,000 个样本,我们预计这足以帮助更广泛的研究人员对上述三个主题进行定量和定性分析。除了这些数据集,我们还包括对模型的一些检测相关属性的基线分析,我们希望其他人能够快速构建这些模型。
与我们交谈
我们有兴趣与研究语言模型输出检测、偏见和出版规范的研究人员以及可能受大型语言模型影响的组织合作:请通过我们的Google 表单联系我们 。 此外,OpenAI 的语言、安全和政策团队将于下周参加 ICLR ,包括可再现性研讨会和 OpenAI 展台。特别是,我们将在 AI for Social Good 研讨会上讨论此发布策略。
脚注
我们通过从互联网上抓取内容创建了一个强调内容多样性的新数据集。为了保持文档质量,我们只使用人工策划/过滤的页面——具体来说,我们使用来自 Reddit 的出站链接,该链接至少获得 3 个业力。这可以被认为是其他用户是否发现该链接有趣(无论是教育性的还是有趣的)的启发式指标,从而导致比其他类似数据集(例如 CommonCrawl)更高的数据质量。↩︎
请注意,虽然我们已经手动选择了这些样本,因此正在进行一些元樱桃采摘,但我们相信它们并不太代表抽样过程。我们只是简单地使用 top-k truncated sampling,还没有探索更高级的采样方法(例如 beam-search 方法)。↩︎
政客们可能想考虑对滥用此类系统的行为进行处罚,正如一些人针对深度造假所提议的那样。↩︎