OpenAI研究 图片 GPT
我们发现,正如在语言上训练的大型 transformer 模型可以生成连贯的文本一样,在像素序列上训练的相同模型也可以生成连贯的图像 补全 和 样本。通过建立样本质量和图像分类准确性之间的相关性,我们表明我们最好的生成模型还包含在无监督设置中与顶级卷积网络竞争的特征。
介绍
无监督和自我监督学习,1个 或在没有人工标记数据的情况下进行学习,是机器学习的长期挑战。最近,它在语言方面取得了令人难以置信的成功,作为 transformer2个 像 BERT 这样的模型,3个 GPT-2,4个 罗伯特,5个 T5,6个 和其他变体7、8、9 ,10 在广泛的语言任务中取得了最佳表现。然而,同一类广泛的模型并没有成功地产生用于图像分类的强大特征。11 我们的工作旨在理解和弥合这一差距。
BERT 和 GPT-2 等 Transformer 模型与领域无关,这意味着它们可以直接应用于任何形式的一维序列。当我们在展开成长像素序列(我们称之为 iGPT)的图像上训练 GPT-2 时,我们发现该模型似乎能够理解二维图像特征,例如对象外观和类别。即使没有人类提供的标签的指导,它生成的各种连贯图像样本也证明了这一点。作为进一步证明,该模型的特征在许多分类数据集上实现了最先进的性能,并且接近最先进的无监督精度A[A]
通过学习特征的逻辑回归测量(线性探针)。
评估 | 数据集 | 我们的成果 | 最佳非 iGPT 结果 |
---|---|---|---|
学习特征的逻辑回归(线性探针) | CIFAR-10 | 96.3iGPT-L 32x32 带 1536 特征 | 95.3仿真CLR12带 8192 个功能 |
CIFAR-100 | 82.8iGPT-L 32x32 带 1536 特征 | 80.2具有 8192 功能的 SimCLR | |
STL-10 | 95.5iGPT-L 32x32 带 1536 特征 | 94.2AMDIM13带 8192 个功能 | |
图像网 | 72.0iGPT-XL a 64x64 带 15360 功能 | 76.5具有 8192 功能的 SimCLR | |
全面微调 | CIFAR-10 | 99.0iGPT-L 32x32,在 ImageNet 上训练 | |
ImageNet 32x32 | 66.3iGPT-L 32x32 | 70.2等距网15 |
- 我们只展示了 iGPT-XL 的 ImageNet 线性探针精度,因为在我们需要过渡到不同的超级计算设施之前,其他实验还没有完成。
- 比特-L,在 JFT 上训练(300M 图像,18K 类),取得了99.3的结果 。
突出生成的潜力16 ,17 序列建模18岁,19 ,20 ,21 作为一种通用的无监督学习算法,我们在语言上特意使用了与 GPT-2 相同的转换器架构。因此,我们需要更多的计算才能产生与顶级无监督卷积网络竞争的特征。13 ,22 ,23 ,24 ,12 然而,我们的结果表明,当面对未知正确模型先验的新领域时,大型 GPT-2 可以学习出色的功能,而无需特定领域25 ,26 ,27建筑设计选择。
完工
















































模型生成的人类提供的半图像的补全。我们用温度 1 对剩下的一半进行采样,并且没有像波束搜索或核采样这样的技巧。虽然我们在第一个面板中展示了我们最喜欢的完成,但我们不会在接下来的所有面板中挑选图像或完成。
样品
























模型生成的图像样本。我们使用温度 1 对这些图像进行采样,并且不使用波束搜索或核采样等技巧。展示了我们所有的样品,没有挑选樱桃。几乎所有生成的图像都包含清晰可辨的对象。
从语言GPT到图像GPT
在语言方面,依赖单词预测的无监督学习算法(如 GPT-2 和 BERT)已经非常成功,在广泛的语言任务中取得了最佳性能。这种成功的一个可能原因是下游语言任务的实例自然地出现在文本中:问题之后通常是答案(这有助于回答问题),段落之后通常是摘要(这有助于总结)。相反,像素序列不明确包含它们所属图像的标签。
即使没有这种明确的监督,图像上的 GPT-2 仍然有可能起作用的原因:在下一个像素预测上训练的足够大的变换器可能最终学会生成不同的乙[乙]
训练变压器以最大化可能性,因此是模式覆盖,它自动确保其样本的多样性。
综合思想的原始分析更多地是对具有潜在变量的生成模型的争论,但由于没有潜在变量的生成模型在建模数据分布方面要好得多,我们认为综合分析猜想也应该适用于它们。
走向一般的无监督学习
生成序列建模是一种通用的无监督学习算法:由于所有数据类型都可以表示为字节序列,因此可以直接将转换器应用于任何数据类型,而无需额外的工程。我们的工作通过直接将用于在自然语言上训练 GPT-2 的架构应用于图像生成来测试这种普遍性的力量。我们故意选择放弃以卷积形式手动编码任何图像特定知识37 或诸如相对注意力之类的技术,38 注意力稀疏,39 和二维位置嵌入。26
由于其通用性,我们的方法需要更多的计算才能在无监督环境中获得有竞争力的性能。的确,对比方法40 ,41 ,42 ,43、44 ,13 ,22 ,23 ,24 ,12仍然是从图像中生成高质量特征的计算效率最高的方法。然而,为了证明无监督变压器模型与最好的无监督卷积网络具有竞争力,23 ,24 ,12 我们提供的证据表明,可以为计算权衡手工编码的领域知识。在新领域,45 ,46 在手写代码知识不多的地方,扩展计算似乎是一种合适的测试技术。
方法
我们在 ImageNet 上训练 iGPT-S、iGPT-M 和 iGPT-L,它们分别包含 76M、455M 和 1.4B 参数。我们还训练 iGPT-XL丁[D]
我们只在 ImageNet 上展示 iGPT-XL 的线性探测精度,因为在我们需要过渡到不同的超级计算设施之前,其他实验还没有完成。
虽然以更低的分辨率工作以进一步降低计算成本很诱人,但之前的工作表明,人类在图像分类方面的表现开始迅速下降到这些尺寸以下。47 相反,受早期彩色显示调色板的启发,48岁 我们创建自己的 9 位调色板来表示像素。使用此调色板产生的输入序列长度比标准(R、G、B)调色板短 3 倍,同时仍忠实地编码颜色。
实验结果
我们使用两种方法来评估模型性能,这两种方法都涉及下游分类任务。第一个,我们称之为线性探针,使用经过训练的模型来提取特征乙[E]
为了提取线性探针的特征,我们在序列维度上的某个层和平均池中采用后 layernorm 注意力块输入。
为了进行微调,我们将序列维度上的后层规范转换器输出和平均池作为分类头的输入。
由于下一个像素预测与图像分类没有明显的相关性,因此来自最后一层的特征可能不是对对象类别最具预测性的。我们的第一个结果表明,特征质量是一个急剧增加,然后温和下降的深度函数。这种行为表明 transformer 生成模型分两个阶段运行:在第一阶段,每个位置从其周围的上下文中收集信息,以构建上下文图像特征。在第二阶段,这个上下文特征被用来解决有条件的下一个像素预测任务。观察到的线性探针的两阶段性能让人想起另一个无监督神经网络,即瓶颈自动编码器,它是手动设计的,以便使用中间的特征。
我们的下一个结果建立了生成性能和特征质量之间的联系。我们发现,增加模型的规模和进行更多迭代的训练都会带来更好的生成性能,这直接转化为更好的特征质量。
当我们在 CIFAR-10、CIFAR-100 和 STL-10 上使用线性探针评估我们的特征时,我们的表现优于所有监督和非监督传输算法的特征。我们的结果在完全微调设置中也很引人注目。
在 ImageNet 上预训练 | ||||
---|---|---|---|---|
评估 | 模型 | 准确性 | 无标签 | 带标签 |
CIFAR-10 线性探头 | ResNet-15249 | 94.0 | ✔ | |
仿真CLR12 | 95.3 | ✔ | ||
iGPT-L 32x32 | 96.3 | ✔ | ||
CIFAR-100 线性探头 | ResNet-152 | 78.0 | ✔ | |
仿真CLR | 80.2 | ✔ | ||
iGPT-L 32x32 | 82.8 | ✔ | ||
STL-10 线性探头 | AMDIM-L | 94.2 | ✔ | |
iGPT-L 32x32 | 95.5 | ✔ | ||
CIFAR-10 微调 | 自动增强 | 98.5 | ||
仿真CLR | 98.6 | ✔ | ||
G管道 | 99.0 | ✔ | ||
iGPT-L | 99.0 | ✔ | ||
CIFAR-100 微调 | iGPT-L | 88.5 | ✔ | |
仿真CLR | 89.0 | ✔ | ||
自动增强 | 89.3 | |||
高效网络50 | 91.7 | ✔ |
我们的模型与使用无监督或监督 ImageNet 传输的顶级模型之间线性探针和微调精度的比较。我们还包括 AutoAugment,这是在 CIFAR 上端到端训练的最佳性能模型。
鉴于人们对 ImageNet 上的无监督和自监督学习的兴趣重新抬头,我们还在 ImageNet 上使用线性探针评估我们模型的性能。这是一个特别困难的设置,因为我们不以标准的 ImageNet 输入分辨率进行训练。尽管如此,对来自在 48x48 图像上训练的 iGPT-L 最佳层的 1536 个特征的线性探测产生了 65.2% 的 top-1 准确度,优于 AlexNet。
对比方法通常报告其在 8192 个特征上的最佳结果,因此我们理想地评估嵌入维度为 8192 的 iGPT 以进行比较。然而,训练这样的模型非常昂贵,因此我们将多层的特征连接起来作为近似值。不幸的是,我们的特征往往是跨层相关的,所以我们需要更多的特征来保持竞争力。从 iGPT-XL 的 5 层中提取 15360 个特征可产生 72.0% 的 top-1 准确度,优于 AMDIM、MoCo 和 CPC v2,但仍以可观的幅度低于 SimCLR。
方法 | 输入分辨率 | 特征 | 参数 | 准确性 |
---|---|---|---|---|
回转51 | 原来的 | 8192 | 86M | 55.4 |
iGPT-L | 32x32 | 1536 | 1362M | 60.3 |
BigBiGAN36 | 原来的 | 16384 | 86M | 61.3 |
iGPT-L | 48x48 | 1536 | 1362M | 65.2 |
AMDIM13 | 原来的 | 8192 | 626M | 68.1 |
钼钴23 | 原来的 | 8192 | 375M | 68.6 |
iGPT-XL | 64x64 | 3072 | 6801M | 68.7 |
仿真CLR12 | 原来的 | 2048 | 24M | 69.3 |
每次点击费用 v224 | 原来的 | 4096 | 303M | 71.5 |
iGPT-XL | 64x64 | 3072×5 | 6801M | 72.0 |
仿真CLR | 原来的 | 8192 | 375M | 76.5 |
由于像 BERT 这样的掩码语言模型在大多数语言任务上都优于生成模型,因此我们还评估了 BERT 在我们的图像模型上的性能。我们没有训练我们的模型在给定所有先前像素的情况下预测下一个像素,而是屏蔽掉 15% 的像素并训练我们的模型从未屏蔽的像素中预测它们。我们发现,尽管 BERT 模型上的线性探针性能明显更差,但它们在微调期间表现出色:
使用 iGPT-L 在 32 2 × 3输入分辨率下生成预训练与 BERT 预训练的比较。粗体颜色显示集成 BERT 掩码带来的性能提升。我们看到生成模型在预训练后产生的特征比 BERT 模型好得多,但 BERT 模型在微调后赶上来了。
虽然无监督学习承诺在不需要人工标记数据的情况下具有出色的特性,但最近在更宽容的半监督学习框架下取得了重大进展,该框架允许有限数量的人工标记数据。成功的半监督方法通常依赖于一致性正则化、数据增强或伪标记等巧妙的技术,以及纯粹基于生成的方法52 ,53 多年来一直没有竞争力。我们评估 iGPT-LG[G]
一种以完全无监督的方式学习特征的生成模型。
模型 | 40个标签 | 250个标签 | 4000个标签 |
---|---|---|---|
改进的 GAN53 | — | — | 81.4 ± 2.3 |
卑鄙的老师54 | — | 67.7 ± 2.3 | 90.8 ± 0.2 |
混合搭配55 | 52.5 ± 11.5 | 89.0 ± 0.9 | 93.6 ± 0.1 |
iGPT-L | 73.2 ± 1.5 | 87.6 ± 0.6 | 94.3±0.1 |
乌达57 | 71.0 ± 5.9 | 91.2 ± 1.1 | 95.1±0.2 |
固定匹配56RA | 86.2 ± 3.4 | 94.9 ± 0.7 | 95.7 ± 0.1 |
修复匹配号召性用语 | 88.6 ± 3.4 | 94.9 ± 0.3 | 95.7 ± 0.2 |
限制
虽然我们已经证明 iGPT 能够学习强大的图像特征,但我们的方法仍然存在很大的局限性。因为我们在语言中使用了用于 GPT-2 的通用序列转换器,所以我们的方法需要大量计算:iGPT-L 训练了大约 2500 V100 天,而性能相似的 MoCo 24 模型可以训练大约 70 V100 天.
相关地,我们使用转换器对低分辨率输入进行建模,而大多数自监督结果使用基于卷积的编码器,这些编码器可以轻松地以高分辨率消耗输入。可能需要一种新的架构,例如与领域无关的多尺度变换器,以进一步扩展。鉴于这些限制,我们的工作主要是作为概念验证演示,证明大型基于 transformer 的语言模型能够在新领域中学习出色的无监督表示,而无需硬编码领域知识。然而,训练这些模型的巨大资源成本和基于卷积神经网络的方法的更高准确性使这些表示无法在视觉领域中实际应用。
最后,生成模型可能会表现出偏差,这是它们接受过训练的数据的结果。这些偏差中有许多是有用的,比如假设棕色和绿色像素的组合代表被树叶覆盖的树枝,然后使用这种偏差来继续图像。但是,从公平和代表性的角度考虑时,其中一些偏见是有害的。例如,如果该模型发展出一个偏向男性的科学家的视觉概念,那么它可能会始终如一地完成科学家与男性呈现的人的图像,而不是混合性别。我们预计开发人员将需要更多地关注他们输入系统的数据,并更好地理解它与训练模型中的偏差之间的关系。
结论
我们已经表明,通过权衡 2-D 知识来换取比例