转载

OpenAI研究 图片 GPT

我们发现,正如在语言上训练的大型 transformer 模型可以生成连贯的文本一样,在像素序列上训练的相同模型也可以生成连贯的图像 补全 和 样本。通过建立样本质量和图像分类准确性之间的相关性,我们表明我们最好的生成模型还包含在无监督设置中与顶级卷积网络竞争的特征。

介绍

无监督和自我监督学习,1个 或在没有人工标记数据的情况下进行学习,是机器学习的长期挑战。最近,它在语言方面取得了令人难以置信的成功,作为 transformer2个 像 BERT 这样的模型,3个 GPT-2,4个 罗伯特,5个 T5,6个 和其他变体789 ,10 在广泛的语言任务中取得了最佳表现。然而,同一类广泛的模型并没有成功地产生用于图像分类的强大特征。11 我们的工作旨在理解和弥合这一差距。

BERT 和 GPT-2 等 Transformer 模型与领域无关,这意味着它们可以直接应用于任何形式的一维序列。当我们在展开成长像素序列(我们称之为 iGPT)的图像上训练 GPT-2 时,我们发现该模型似乎能够理解二维图像特征,例如对象外观和类别。即使没有人类提供的标签的指导,它生成的各种连贯图像样本也证明了这一点。作为进一步证明,该模型的特征在许多分类数据集上实现了最先进的性能,并且接近最先进的无监督精度A[A]

通过学习特征的逻辑回归测量(线性探针)。

在 ImageNet 上。
评估数据集我们的成果最佳非 iGPT 结果
学习特征的逻辑回归(线性探针)CIFAR-10
96.3iGPT-L 32x32 带 1536 特征
95.3仿真CLR12带 8192 个功能
CIFAR-100
82.8iGPT-L 32x32 带 1536 特征
80.2具有 8192 功能的 SimCLR
STL-10
95.5iGPT-L 32x32 带 1536 特征
94.2AMDIM13带 8192 个功能
图像网
72.0iGPT-XL a 64x64 带 15360 功能
76.5具有 8192 功能的 SimCLR
全面微调CIFAR-10
99.0iGPT-L 32x32,在 ImageNet 上训练
99.0G管道,14在 ImageNet 上训练
ImageNet 32x32
66.3iGPT-L 32x32
70.2等距网15
  1. 我们只展示了 iGPT-XL 的 ImageNet 线性探针精度,因为在我们需要过渡到不同的超级计算设施之前,其他实验还没有完成。
  2. 比特-L,在 JFT 上训练(300M 图像,18K 类),取得了99.3的结果 。

突出生成的潜力16 ,17 序列建模18岁19 ,20 ,21 作为一种通用的无监督学习算法,我们在语言上特意使用了与 GPT-2 相同的转换器架构。因此,我们需要更多的计算才能产生与顶级无监督卷积网络竞争的特征。13 ,22 ,23 ,24 ,12 然而,我们的结果表明,当面对未知正确模型先验的新领域时,大型 GPT-2 可以学习出色的功能,而无需特定领域25 ,26 ,27建筑设计选择。

完工

模型输入
完工
原来的

模型生成的人类提供的半图像的补全。我们用温度 1 对剩下的一半进行采样,并且没有像波束搜索或核采样这样的技巧。虽然我们在第一个面板中展示了我们最喜欢的完成,但我们不会在接下来的所有面板中挑选图像或完成。

样品

模型生成的图像样本。我们使用温度 1 对这些图像进行采样,并且不使用波束搜索或核采样等技巧。展示了我们所有的样品,没有挑选樱桃。几乎所有生成的图像都包含清晰可辨的对象。

比例:1.5x

从语言GPT到图像GPT

在语言方面,依赖单词预测的无监督学习算法(如 GPT-2 和 BERT)已经非常成功,在广泛的语言任务中取得了最佳性能。这种成功的一个可能原因是下游语言任务的实例自然地出现在文本中:问题之后通常是答案(这有助于回答问题),段落之后通常是摘要(这有助于总结)。相反,像素序列不明确包含它们所属图像的标签。

即使没有这种明确的监督,图像上的 GPT-2 仍然有可能起作用的原因:在下一个像素预测上训练的足够大的变换器可能最终学会生成不同的[乙]

训练变压器以最大化可能性,因此是模式覆盖,它自动确保其样本的多样性。

具有清晰可辨物体的样品。一旦它学会了这样做,一个被称为“综合分析”的想法28岁29 ,C[C]

综合思想的原始分析更多地是对具有潜在变量的生成模型的争论,但由于没有潜在变量的生成模型在建模数据分布方面要好得多,我们认为综合分析猜想也应该适用于它们。

 这表明该模型还将了解对象类别。许多早期的生成模型30 ,31 ,32 ,33 ,34 ,35 受到这个想法的启发,最近,BigBiGAN36 是一个产生令人鼓舞的样本和特征的例子。在我们的工作中,我们首先表明更好的生成模型可以获得更强的分类性能。然后,通过优化 GPT-2 的生成能力,我们在许多设置中实现了顶级分类性能,为综合分析提供了进一步的证据。

走向一般的无监督学习

生成序列建模是一种通用的无监督学习算法:由于所有数据类型都可以表示为字节序列,因此可以直接将转换器应用于任何数据类型,而无需额外的工程。我们的工作通过直接将用于在自然语言上训练 GPT-2 的架构应用于图像生成来测试这种普遍性的力量。我们故意选择放弃以卷积形式手动编码任何图像特定知识37 或诸如相对注意力之类的技术,38 注意力稀疏,39 和二维位置嵌入。26

由于其通用性,我们的方法需要更多的计算才能在无监督环境中获得有竞争力的性能。的确,对比方法40 ,41 ,42 ,4344 ,13 ,22 ,23 ,24 ,12仍然是从图像中生成高质量特征的计算效率最高的方法。然而,为了证明无监督变压器模型与最好的无监督卷积网络具有竞争力,23 ,24 ,12 我们提供的证据表明,可以为计算权衡手工编码的领域知识。在新领域,45 ,46 在手写代码知识不多的地方,扩展计算似乎是一种合适的测试技术。

方法

我们在 ImageNet 上训练 iGPT-S、iGPT-M 和 iGPT-L,它们分别包含 76M、455M 和 1.4B 参数。我们还训练 iGPT-XL[D]

我们只在 ImageNet 上展示 iGPT-XL 的线性探测精度,因为在我们需要过渡到不同的超级计算设施之前,其他实验还没有完成。

,一个 68 亿参数转换器,混合了 ImageNet 和来自网络的图像。由于对具有密集注意力的长序列建模的计算成本很高,我们以 32x32、48x48 和 64x64 的低分辨率进行训练。

虽然以更低的分辨率工作以进一步降低计算成本很诱人,但之前的工作表明,人类在图像分类方面的表现开始迅速下降到这些尺寸以下。47 相反,受早期彩色显示调色板的启发,48岁 我们创建自己的 9 位调色板来表示像素。使用此调色板产生的输入序列长度比标准(R、G、B)调色板短 3 倍,同时仍忠实地编码颜色。

实验结果

我们使用两种方法来评估模型性能,这两种方法都涉及下游分类任务。第一个,我们称之为线性探针,使用经过训练的模型来提取特征[E]

为了提取线性探针的特征,我们在序列维度上的某个层和平均池中采用后 layernorm 注意力块输入。

从下游数据集中的图像,然后将逻辑回归拟合到标签。第二种方法微调F[F]

为了进行微调,我们将序列维度上的后层规范转换器输出和平均池作为分类头的输入。

 下游数据集上的整个模型。

由于下一个像素预测与图像分类没有明显的相关性,因此来自最后一层的特征可能不是对对象类别最具预测性的。我们的第一个结果表明,特征质量是一个急剧增加,然后温和下降的深度函数。这种行为表明 transformer 生成模型分两个阶段运行:在第一阶段,每个位置从其周围的上下文中收集信息,以构建上下文图像特征。在第二阶段,这个上下文特征被用来解决有条件的下一个像素预测任务。观察到的线性探针的两阶段性能让人想起另一个无监督神经网络,即瓶颈自动编码器,它是手动设计的,以便使用中间的特征。

chart = RuntimeError: 获取失败
特征质量在很大程度上取决于我们选择评估的层。与监督模型相比,这些生成模型的最佳特征位于网络的中间。

我们的下一个结果建立了生成性能和特征质量之间的联系。我们发现,增加模型的规模和进行更多迭代的训练都会带来更好的生成性能,这直接转化为更好的特征质量。

chart = RuntimeError: 获取失败
每条线在整个生成预训练过程中跟踪一个模型:虚线标记表示步骤 131K、262K、524K 和 1000K 的检查点。正斜率表明改进的生成性能和改进的特征质量之间存在联系。较大的模型也比较小的模型产生更好的特征。iGPT-XL 不包括在内,因为它是在不同的数据集上训练的。

当我们在 CIFAR-10、CIFAR-100 和 STL-10 上使用线性探针评估我们的特征时,我们的表现优于所有监督和非监督传输算法的特征。我们的结果在完全微调设置中也很引人注目。

在 ImageNet 上预训练
评估模型准确性无标签带标签
CIFAR-10
线性探头
ResNet-1524994.0
仿真CLR1295.3
iGPT-L 32x3296.3
CIFAR-100
线性探头
ResNet-15278.0
仿真CLR80.2
iGPT-L 32x3282.8
STL-10
线性探头
AMDIM-L94.2
iGPT-L 32x3295.5
CIFAR-10
微调
自动增强98.5
仿真CLR98.6
G管道99.0
iGPT-L99.0
CIFAR-100
微调
iGPT-L88.5
仿真CLR89.0
自动增强89.3
高效网络5091.7

我们的模型与使用无监督或监督 ImageNet 传输的顶级模型之间线性探针和微调精度的比较。我们还包括 AutoAugment,这是在 CIFAR 上端到端训练的最佳性能模型。

鉴于人们对 ImageNet 上的无监督和自监督学习的兴趣重新抬头,我们还在 ImageNet 上使用线性探针评估我们模型的性能。这是一个特别困难的设置,因为我们不以标准的 ImageNet 输入分辨率进行训练。尽管如此,对来自在 48x48 图像上训练的 iGPT-L 最佳层的 1536 个特征的线性探测产生了 65.2% 的 top-1 准确度,优于 AlexNet。

对比方法通常报告其在 8192 个特征上的最佳结果,因此我们理想地评估嵌入维度为 8192 的 iGPT 以进行比较。然而,训练这样的模型非常昂贵,因此我们将多层的特征连接起来作为近似值。不幸的是,我们的特征往往是跨层相关的,所以我们需要更多的特征来保持竞争力。从 iGPT-XL 的 5 层中提取 15360 个特征可产生 72.0% 的 top-1 准确度,优于 AMDIM、MoCo 和 CPC v2,但仍以可观的幅度低于 SimCLR。

方法输入分辨率特征参数准确性
回转51原来的819286M55.4
iGPT-L32x3215361362M60.3
BigBiGAN36原来的1638486M61.3
iGPT-L48x4815361362M65.2
AMDIM13原来的8192626M68.1
钼钴23原来的8192375M68.6
iGPT-XL64x6430726801M68.7
仿真CLR12原来的204824M69.3
每次点击费用 v224原来的4096303M71.5
iGPT-XL64x643072×56801M72.0
仿真CLR原来的8192375M76.5
我们的模型与最先进的自监督模型之间线性探针精度的比较。尽管我们的方法需要更多的参数和计算,但我们在以低得多的输入分辨率进行训练时获得了有竞争力的性能。

由于像 BERT 这样的掩码语言模型在大多数语言任务上都优于生成模型,因此我们还评估了 BERT 在我们的图像模型上的性能。我们没有训练我们的模型在给定所有先前像素的情况下预测下一个像素,而是屏蔽掉 15% 的像素并训练我们的模型从未屏蔽的像素中预测它们。我们发现,尽管 BERT 模型上的线性探针性能明显更差,但它们在微调期间表现出色:

CIFAR-10
线性探头
微调
chartCI = RuntimeError: 获取失败
图像网
线性探头
微调
chartIN = RuntimeError: 获取失败

使用 iGPT-L 在 32 2 × 3输入分辨率下生成预训练与 BERT 预训练的比较。粗体颜色显示集成 BERT 掩码带来的性能提升。我们看到生成模型在预训练后产生的特征比 BERT 模型好得多,但 BERT 模型在微调后赶上来了。

虽然无监督学习承诺在不需要人工标记数据的情况下具有出色的特性,但最近在更宽容的半监督学习框架下取得了重大进展,该框架允许有限数量的人工标记数据。成功的半监督方法通常依赖于一致性正则化、数据增强或伪标记等巧妙的技术,以及纯粹基于生成的方法52 ,53 多年来一直没有竞争力。我们评估 iGPT-LG[G]

一种以完全无监督的方式学习特征的生成模型。

在这个子领域的竞争基准上,发现对非增强图像特征的简单线性探测优于 Mean Teacher54 和混搭,55 尽管它不如 FixMatch。56
模型40个标签250个标签4000个标签
改进的 GAN5381.4 ± 2.3
卑鄙的老师5467.7 ± 2.390.8 ± 0.2
混合搭配5552.5 ± 11.589.0 ± 0.993.6 ± 0.1
iGPT-L73.2 ± 1.587.6 ± 0.694.3±0.1
乌达5771.0 ± 5.991.2 ± 1.195.1±0.2
固定匹配56RA86.2 ± 3.494.9 ± 0.795.7 ± 0.1
修复匹配号召性用语88.6 ± 3.494.9 ± 0.395.7 ± 0.2
低数据 CIFAR-10 的性能比较。通过利用许多未标记的 ImageNet 图像,iGPT-L 能够胜过 Mean Teacher 和 MixMatch 等方法,但仍低于最先进的方法。我们的半监督学习方法非常简单,因为我们只在 iGPT-L 的特征上拟合逻辑回归分类器,没有任何数据增强或微调——这与专门设计的半监督方法有显着差异。

限制

虽然我们已经证明 iGPT 能够学习强大的图像特征,但我们的方法仍然存在很大的局限性。因为我们在语言中使用了用于 GPT-2 的通用序列转换器,所以我们的方法需要大量计算:iGPT-L 训练了大约 2500 V100 天,而性能相似的 MoCo 24 模型可以训练大约 70 V100 天.

相关地,我们使用转换器对低分辨率输入进行建模,而大多数自监督结果使用基于卷积的编码器,这些编码器可以轻松地以高分辨率消耗输入。可能需要一种新的架构,例如与领域无关的多尺度变换器,以进一步扩展。鉴于这些限制,我们的工作主要是作为概念验证演示,证明大型基于 transformer 的语言模型能够在新领域中学习出色的无监督表示,而无需硬编码领域知识。然而,训练这些模型的巨大资源成本和基于卷积神经网络的方法的更高准确性使这些表示无法在视觉领域中实际应用。

最后,生成模型可能会表现出偏差,这是它们接受过训练的数据的结果。这些偏差中有许多是有用的,比如假设棕色和绿色像素的组合代表被树叶覆盖的树枝,然后使用这种偏差来继续图像。但是,从公平和代表性的角度考虑时,其中一些偏见是有害的。例如,如果该模型发展出一个偏向男性的科学家的视觉概念,那么它可能会始终如一地完成科学家与男性呈现的人的图像,而不是混合性别。我们预计开发人员将需要更多地关注他们输入系统的数据,并更好地理解它与训练模型中的偏差之间的关系。

结论

我们已经表明,通过权衡 2-D 知识来换取比例58 通过从网络中间选择预测特征,序列变换器可以与顶级卷积网络竞争无监督图像分类。值得注意的是,我们通过直接将 GPT-2 语言模型应用于图像生成来实现我们的结果。我们的结果表明,由于其简单性和通用性,给予足够计算的序列变换器可能最终成为在许多领域学习优秀特征的有效方法。

如果您很高兴与我们一起从事这一研究领域的工作, 我们正在招聘

脚注

  1. 通过学习特征的逻辑回归测量(线性探针)。↩︎

  2. 训练变压器以最大化可能性,因此是模式覆盖,它自动确保其样本的多样性。↩︎

  3. 综合思想的原始分析更多地是对具有潜在变量的生成模型的争论,但由于没有潜在变量的生成模型在建模数据分布方面要好得多,我们认为综合分析猜想也应该适用于它们。↩︎

  4. 我们只在 ImageNet 上展示 iGPT-XL 的线性探测精度,因为在我们需要过渡到不同的超级计算设施之前,其他实验还没有完成。↩︎

  5. 为了提取线性探针的特征,我们在序列维度上的某个层和平均池中采用后 layernorm 注意力块输入。↩︎

  6. 为了进行微调,我们将序列维度上的后层规范转换器输出和平均池作为分类头的输入。↩︎

  7. 一种以完全无监督的方式学习特征的生成模型。↩︎

参考

  1. Y. LeCun (2017)。“预测学习。” ↩︎

  2. Vaswani, A.、Shazeer, N.、Parmar, N.、Uszkoreit, J.、Jones, L.、Gomez, A.、Kaiser, L. 和 Polosukhin, I.“注意力就是你所需要的。” 在 NeurIPS 2017 中。↩︎

  3. Devlin, J.、Chang, M.、Lee, K. 和 Toutanova, K.(2018 年)。“ BERT:用于语言理解的深度双向转换器的预训练。” arXiv 预印本。↩︎

  4. Radford, A.、Wu, J.、Child, R.、Luan, D.、Amodei, D. 和 Sutskever, I.(2019 年)。“语言模型是无监督的多任务学习者。” 技术报告,OpenAI。 ↩︎

  5. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019)。“ RoBERTa:一种稳健优化的 BERT 预训练方法。” arXiv 预印本。↩︎

  6. Raffel, C.、Shazeer, N.、Roberts, A.、Lee, K.、Narang, S.、Matena, M.、Zhou, Y.、Li, W. 和 Liu, P. (2019)。“使用统一的文本到文本转换器探索迁移学习的局限性。” arXiv 预印本。↩︎

  7. Dai, A., Le, QV (2015)。“半监督序列学习。” 在 NeurIPS 2015 中。↩︎

  8. Peters, M.、Neumann, M.、Iyyer, M.、Gardner, M.、Clark, C.、Lee, K. 和 Zettlemoyer, L.(2018 年)。“深度语境化的词表示。” 在 NAACL 2018 中 。↩︎

  9. Howard, J., Ruder, S. (2018)。“用于文本分类的通用语言模型微调。” 在 ACL 2018 中。↩︎

  10. Radford, A.、Narasimhan, K.、Salimans, T. 和 Sutskever, I.(2018 年)。“通过生成式预训练提高语言理解力。” 技术报告,OpenAI。↩︎

  11. Ke N.、Goyal, A.、Bilaniuk,O.、Binas, J.、Mozer, M.、Pal, C.、Bengio, Y (2018)。“稀疏细心回溯:通过提醒进行时间信用分配。” 在 NeurIPS 2018 中。↩︎

  12. Chen, T.、Kornblith, S.、Norouzi, M.、Hinton, G. (2020)。“视觉表征对比学习的简单框架”。arXiv 预印本。↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  13. Bachman, P.、Hjelm, R. 和 Buchwalter, W.(2019 年)。“通过最大化跨视图的互信息来学习表示。” NeurIPS 2019。↩︎↩︎↩︎↩︎

  14. Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J., Le, QV, Wu, Y., & Chen, Z.(2019 年)“ GPipe:使用流水线并行高效训练巨型神经网络。” 在 NeurIPS 2019 中。↩︎

  15. Sandler, M.、Baccash, J.、Zhmoginov, A. 和 Howard, A.(2019 年)。“非歧视性数据或弱模型?关于数据和模型解析的相对重要性。” 在 ICCV 2019 中。↩︎

  16. Lasserre, J.、Bishop, C. 和 Minka, TP (2006)。“生成模型和判别模型的原则性混合体。” 在 CVPR 2006 中。↩︎

  17. Erhan, D.、Bengio, Y.、Courville, A.、Manzagol, P.、Vincent, P.、Bengio, S. (2010)。“为什么无监督预训练有助于深度学习?” 在 JMLR 2010 中 。↩︎

  18. J. 埃尔曼 (1990)。“及时寻找结构。” 在认知科学 1990 年。↩︎

  19. Mikolov, T.、Karafiat, M.、Burget, L.、Cernocky, J.、Khudanpur, S. (2010)。“基于循环神经网络的语言模型。” 在 INTERSPEECH-2010 中。↩︎

  20. Larochelle, H., Murray, I. (2011)。“神经自回归分布估计器。” 在 AISTATS 2011 中。↩︎

  21. A. 格雷夫斯 (2013)。“使用递归神经网络生成序列。” arXiv 预印本。↩︎

  22. Tian, Y.、Krishnan, D. 和 Isola, P. (2019)。“对比多视图编码。” arXiv 预印本。↩︎↩︎ _

  23. He, K.、Fan, H.、Wu, Y.、Xie, S. 和 Girshick, R. (2019)。“无监督视觉表示学习的动量对比。” arXiv 预印本。↩︎↩︎↩︎↩︎ _

  24. Henaff, O.、Srinivas, A.、De Fauw, J.、Razavi, A.、Doersch, C.、Eslami, S.、Oord, A.(2019 年)。“具有对比预测编码的数据高效图像识别 。” arXiv 预印本。 ↩︎↩︎↩︎↩︎ _

  25. Oord, A.、Kalchbrenner, N.、Kavukcuoglu, K. (2016)。“像素递归神经网络。” arXiv 预印本。↩︎

  26. Parmar, N.、Vaswani, A.、Uszkoreit, J.、Kaiser, L.、Shazeer, N.、Ku, A. 和 Tran, D.(2018 年)。“图像转换器。” 在 ICML 2018 。↩︎↩︎

  27. Menick, J., Kalchbrenner, N. (2018)。“使用子尺度像素网络和多维放大生成高保真图像。” arXiv 预印本。↩︎

  28. D. 芒福德 (1992)。“关于新皮质的计算架构。” 在生物学中。赛伯恩。↩︎

  29. Rao, R., Ballard, D. (1999)。“视觉皮层中的预测编码:对一些超经典感受野效应的功能解释。” 在自然神经科学中。 ↩︎

  30. Hinton, G. (2002)。“通过最小化对比发散来训练专家产品。” 在麻省理工学院出版社。↩︎

  31. Hinton, G.、Osindero, S. 和 Teh, Y. (2006)。“深度信念网络的快速学习算法。” 在神经计算中。↩︎

  32. Vincent, P.、Larochelle, H.、Bengio, Y. 和 Manzagol, P. (2008)。“使用去噪自动编码器提取和组合稳健的特征。” 在 ICML 2008 中。↩︎

  33. Coates, A.、Lee, H. 和 Ng, AY (2011)。“无监督特征学习中单层网络的分析。” 在 AISTATS 2011 中。↩︎

  34. Le, QV、Ranzato, M.、Monga, R.、Devin, M.、Chen, K.、Corrado, G.、Dean, J. 和 Ng, AY (2012)。“使用大规模无监督学习构建高级特征。” 在 ICML 2012 中。↩︎

  35. 多纳休,J.,西蒙尼安,K. (2019)。“大规模对抗性表征学习。” 在 NeurIPS 2019。↩︎↩︎

  36. Ciresan, D.、Meier, U.、Gambardella, L. 和 Schmidhuber, J. (2010)。“ Deep Big Simple Neural Nets 擅长手写数字识别。” 在 CoRR 2010 中。↩︎

  37. Shaw, P.、Uszkoreit, J. 和 Vaswani A. (2018)。“具有相对位置表示的自我关注。” 在 NAACL 2018 中。↩︎

  38. Child, R.、Gray, S.、Radford, A. 和 Sutskever, I.(2019 年)。“使用稀疏变换器生成长序列。” arXiv 预印本。 ↩︎

  39. Becker, S., Hinton, G. (1991)。“在随机点立体图中发现表面的自组织神经网络。” 在自然界。↩︎

  40. Bromley, J.、Guyon, I.、LeCun, Y.、Sackinger, E. 和 Shah, R. (1994)。“使用“连体”时间延迟神经网络进行签名验证。” 在 NeurIPS 1994 中。↩︎

  41. Mikolov, T.、Sutskever, I.、Chen, K.、Corrado, G. 和 Dean, J. (2013)。“单词和短语的分布式表示及其组合性 。” 在 NeurIPS 2013 中 。↩︎

  42. Oord, A.、Li, Y.、Vinyals, O. (2018)。“使用对比预测编码的表示学习 。” arXiv 预印本。 ↩︎

  43. Hjelm, R.、Fedorov, A.、Lavoie-Marchildon, S.、Grewal, K.、Bachman, P.、Trischler, A. 和 Bengio, Y.(2018 年)。“通过互信息估计和最大化学习深度表征。” 在 ICLR 2019 中。↩︎

  44. Alley, E.、Khimulya, G.、Biswas, S.、AlQuraishi, M.、Church, G.(2019 年)。“统一理性蛋白质工程与纯序列深度表征学习。” 在自然方法中。↩︎

  45. Rives, A.、Goyal, S.、Meier, J.、Guo, D.、Ott, M.、Zitnick, C.、Ma, J.、Fergus, R.(2019 年)。“通过将无监督学习扩展到 2.5 亿个蛋白质序列,生物结构和功能出现了。” bioRxiv 预印本。 ↩︎

  46. Torralba, A.、Fergus, R.、Freeman, W. (2008)。“ 8000 万张微小图像:用于非参数对象和场景识别的大型数据集。” 在关于模式分析和机器智能的 IEEE 交易中。↩︎

  47. “ 8 位计算机硬件图形列表。” 维基百科,2020 年 5 月 8 日↩︎

  48. Kornblith, S.、Shlens, J. 和 Le, QV (2019)。“更好的 ImageNet 模型迁移得更好吗?” 在 CVPR 2019 中 。↩︎

  49. Tan, M., Le, QV (2019)。“ EfficientNet:重新思考卷积神经网络的模型缩放。” 在 ICML 2019 中 。↩︎

  50. Gidaris, S.、Singh, P. 和 Komodakis, N. (2018)。“通过预测图像旋转进行无监督表示学习。” 在 ICLR 2018 中。↩︎

  51. Kingma, D.、Rezende, DJ、Mohamed, S. 和 Welling, M. (2014)。“深度生成模型的半监督学习。” 在 NeurIPS 2014 中。↩︎

  52. Salimans, T.、Goodfellow, I.、Zaremba, W.、Cheung, V.、Radford, A.、Chen, X.(2016 年)。“训练甘斯的改进技术。” 在 NeurIPS 2016。↩︎↩︎

  53. Berthelot, D.、Carlini, N.、Goodfellow, I.、Papernot, N.、Oliver, A.、Raffel, C.(2019 年)。“ MixMatch:半监督学习的整体方法。” 在 NeurIPS 2019。↩︎↩︎

  54. Sohn, K.、Berthelot, D.、Li, C.、Zhang, Z.、Carlini, N.、Cubuk, E.、Kurakin, A.、Zhang, H.、Raffel, C. (2020)。“ Fixmatch:以一致性和置信度简化半监督学习。” arXiv 预印本。↩︎↩︎ _

  55. Xie, Q.、Dai, Z.、Hovy, E.、Luong, M. 和 Le, QV (2019)。“用于一致性训练的无监督数据增强。” arXiv 预印本。 ↩︎

  56. R. 萨顿 (2019)。“惨痛的教训”。↩︎

作者

致谢

首先,我们要感谢论文的合著者 Rewon Child、Jeff Wu、Heewoo Jun、Prafulla Dhariwal 和 David Luan。

感谢以下人员对这项工作的反馈和对本版本的贡献:Vedant Misra、Noah Golmant、Johannes Otterbach、Pranav Shyam、Aditya Ramesh、Yura Burda、Harri Edwards、Chris Hallacy、Jeff Clune、Jack Clark、Irene Solaiman、Ryan Lowe、Greg Brockman、Kelly Sims、David Farhi、Will Guss、Quoc V. Le 和 Ashish Vaswani。

编辑:Ashley Pilipiszyn

设计:Justin Jay Wang

封面艺术:本·巴里


详细论文