转载

OpenAI研究 DALL·E:从文本创建图像

我们已经训练了一个名为 DALL·E 的神经网络,它可以根据文本标题为可以用自然语言表达的各种概念创建图像。


DALL·E 是GPT-3的 120 亿参数版本,  经过训练可使用文本-图像对数据集从文本描述生成图像。我们发现它具有多种功能,包括创建动物和物体的拟人化版本、以合理的方式组合不相关的概念、渲染文本以及对现有图像应用转换。

另请参阅:  DALL·E 2,它生成更逼真和准确的图像,分辨率提高了 4 倍。

文字提示
穿着芭蕾舞短裙遛狗的小萝卜插图
人工智能生成的图像
文字提示
牛油果形状的扶手椅。. . .
人工智能生成的图像
文字提示
写有“openai”字样的店面。. . .
人工智能生成的图像
文字提示
顶部的猫与底部的草图完全相同
人工智能生成的图像

GPT-3 表明语言可用于指示大型神经网络执行各种文本生成任务。 Image GPT 表明,同样类型的神经网络也可以用来生成高保真度的图像。我们扩展了这些发现,以表明通过语言操纵视觉概念现在已经触手可及。

概述

和GPT-3一样,DALL·E是transformer语言模型。它接收文本和图像作为包含多达 1280 个标记的单个数据流,并使用最大似然法进行训练以生成所有标记,一个接一个。A[A]

标记是离散词汇表中的任何符号;对于人类来说,每个英文字母都是 26 个字母表中的一个标记。DALL·E 的词汇表既有文本概念也有图像概念。具体来说,每个图像说明使用最多 256 个 BPE 编码的标记表示,词汇量为 16384,图像使用 1024 个标记表示,词汇量为 8192。

图像在训练期间被预处理为 256x256 分辨率。类似于 VQVAE,12个 使用离散 VAE 将每个图像压缩为 32x32 离散潜代码网格34个 我们使用连续放松进行了预训练。56个 我们发现使用松弛的训练避免了对显式代码本、EMA 损失或死代码恢复等技巧的需要,并且可以扩展到大词汇量。

这个训练过程让 DALL·E 不仅可以从头开始生成图像,还可以以与文本提示一致的方式重新生成现有图像延伸到右下角的任何矩形区域。


我们认识到涉及生成模型的工作有可能产生重大而广泛的社会影响。未来,我们计划分析像 DALL·E 这样的模型如何与社会问题相关,例如对某些工作流程和职业的经济影响、模型输出的潜在偏差,以及该技术隐含的长期道德挑战。

能力

我们发现 DALL·E 能够为探索语言组成结构的各种句子创建似是而非的图像。我们将在下一节中使用一系列交互式视觉效果来说明这一点。视觉效果中每个标题显示的样本是在使用CLIP重新排名后从 512 个样本中选取前 32 个样本获得的 ,但除了出现在外部的缩略图和独立图像之外,我们不使用任何手动挑选。[乙]

后面的部分提供了更多详细信息 。


控制属性

我们测试 DALL·E 修改一个对象的几个属性的能力,以及它出现的次数。

单击以编辑文本提示或查看更多 AI 生成的图像

绘制多个对象

同时控制多个对象、它们的属性和它们的空间关系提出了新的挑战。例如,考虑一下短语“a hedgehog wearing a red hat, yellow gloves, blue shirt, and and green pants”。为了正确解释这句话,DALL·E 不仅要正确地将每件衣服与动物组合在一起,还要形成联想(帽子,红色),(手套,黄色),(衬衫,蓝色)和(裤子,绿色) ) 而不会混淆它们C[C]

此任务称为变量绑定,并已在文献中进行了广泛研究。789 ,10

 我们测试 DALL·E 在相对定位、堆叠对象和控制多个属性方面的能力。

虽然 DALL·E 确实提供了对少量对象的属性和位置的某种程度的可控性,但成功率可能取决于标题的措辞方式。随着引入的对象越来越多,DALL·E 容易混淆对象与其颜色之间的关联,成功率急剧下降。我们还注意到,在这些场景中,DALL·E 在重新措辞字幕方面很脆弱:备选的、语义等价的字幕通常不会产生正确的解释。

可视化透视和三维度

我们发现 DALL·E 还允许控制场景的视点和渲染场景的 3D 风格。

为了进一步推动这一点,我们测试了 DALL·E 从一系列等距角度的每个角度重复绘制知名人物头部的能力,并发现我们可以恢复旋转头部的平滑动画。

DALL·E 似乎能够对场景应用某些类型的光学失真,正如我们在“鱼眼镜头视图”和“球形全景”选项中看到的那样。这促使我们探索它产生反射的能力。

可视化内部和外部结构

“极近特写”和“x光”风格的样本让我们进一步探索了DALL·E用截面图渲染内部结构,用宏观照片渲染外部结构的能力。

推断上下文细节

将文本翻译成图像的任务是未指定的:单个标题通常对应于无限的似是而非的图像,因此图像不是唯一确定的。例如,考虑标题“日出时坐在田野上的水豚画”。根据水豚的方向,可能需要绘制阴影,但从未明确提及此细节。我们在三种情况下探索 DALL·E 解决规格不足的能力:改变风格、设置和时间;在各种不同的情况下绘制相同的对象;并生成上面写有特定文本的对象的图像。

凭借不同程度的可靠性,DALL·E 通过自然语言提供对 3D 渲染引擎功能子集的访问。它可以独立控制少量对象的属性,并在有限的范围内控制对象的数量,以及它们之间的排列方式。它还可以控制渲染场景的位置和角度,并可以根据角度和照明条件的精确规范生成已知对象。

与 3D 渲染引擎不同,其输入必须明确且完整地指定,当标题暗示图像必须包含未明确说明的特定细节时,DALL·E 通常能够“填补空白”。

前面能力的应用

接下来,我们探索将上述功能用于时尚和室内设计。

结合不相关的概念

语言的组合性质使我们能够将概念放在一起来描述真实和想象的事物。我们发现 DALL·E 也有能力将不同的想法结合起来合成物体,其中一些物体不太可能存在于现实世界中。我们在两个实例中探索这种能力:将各种概念的品质转移到动物身上,以及从不相关的概念中汲取灵感来设计产品。

动物插画

在上一节中,我们探讨了 DALL·E 在生成真实世界对象的图像时组合不相关概念的能力。在这里,我们在艺术的背景下探索这种能力,用于三种插图:动物和物体的拟人化版本、动物嵌合体和表情符号。

零样本视觉推理

可以指示 GPT-3 仅根据描述和提示执行多种任务,以生成提示中提供的答案,而无需任何额外培训。例如,当提示短语“这里是‘一个人在公园遛狗’翻译成法语:”时,GPT-3 回答“un homme qui promène son chien dans le parc”。这种能力称为 零样本推理。 我们发现 DALL·E 将这种能力扩展到视觉领域,并且能够在以正确的方式提示时执行多种图像到图像的翻译任务。

我们没有预料到这种能力会出现,也没有对神经网络或训练程序进行任何修改来鼓励它。受这些结果的启发,我们通过在 Raven 的渐进矩阵上测试 DALL·E 来衡量 DALL·E 对类比推理问题的能力,这是一种在 20 世纪广泛使用的视觉智商测试。

地理知识

我们发现 DALL·E 已经了解了地理事实、地标和社区。它对这些概念的了解在某些方面出人意料地精确,但在其他方面却存在缺陷。

时间知识

除了探索 DALL·E 关于随空间变化的概念的知识外,我们还探索它关于随时间变化的概念的知识。

方法总结和之前的工作

DALL·E 是一个简单的仅解码器转换器,它接收文本和图像作为 1280 个标记的单个流——文本 256 个,图像 1024 个——并对所有这些标记进行自回归建模。其 64 个自注意层中的每个层的注意掩码允许每个图像标记关注所有文本标记。DALL·E 对文本标记使用标准因果掩码,对图像标记使用稀疏注意力,具有行、列或卷积注意力模式,具体取决于层。我们在论文中提供了有关体系结构和培训过程的更多详细信息 。

自 Reed 等人的开创性工作以来,文本到图像的合成一直是一个活跃的研究领域。铝,11 其方法使用以文本嵌入为条件的 GAN。嵌入是由使用对比损失预训练的编码器生成的,这与 CLIP 不同。StackGAN12 和 StackGAN++13 使用多尺度 GAN 来扩大图像分辨率并提高视觉保真度。AttnGAN14 结合了文本和图像特征之间的注意力,并提出了对比文本-图像特征匹配损失作为辅助目标。与我们使用离线完成的 CLIP 重新排名相比,这很有趣。其他工作15 ,16 ,17在训练期间加入额外的监督来源以提高图像质量。最后,Nguyen 等人的工作。阿尔18 和 Cho 等人。在19 探索基于采样的图像生成策略,该策略利用预训练的多模态判别模型。

与VQVAE-2中使用的拒绝抽样类似 ,我们使用 CLIP 对所有交互式视觉效果中每个字幕的 512 个样本中的前 32 个样本进行重新排序。这个过程也可以看作是一种语言引导搜索20, 并且会对样品质量产生巨大影响。

脚注

  1. 标记是离散词汇表中的任何符号;对于人类来说,每个英文字母都是 26 个字母表中的一个标记。DALL·E 的词汇表既有文本概念也有图像概念。具体来说,每个图像说明使用最多 256 个 BPE 编码的标记表示,词汇量为 16384,图像使用 1024 个标记表示,词汇量为 8192。

    图像在训练期间被预处理为 256x256 分辨率。类似于 VQVAE,12个 使用离散 VAE 将每个图像压缩为 32x32 离散潜代码网格34个 我们使用连续放松进行了预训练。56个 我们发现使用松弛的训练避免了对显式代码本、EMA 损失或死代码恢复等技巧的需要,并且可以扩展到大词汇量。↩︎

  2. 后面的部分提供了更多详细信息 。↩︎

  3. 此任务称为变量绑定,并已在文献中进行了广泛研究。789 ,10↩︎

参考

  1. van den Oord, A.、Vinyals, O.、Kavukcuoglu, K. (2017)。“神经离散表示学习”。↩︎↩︎ _

  2. Razavi, A.、van der Oord, A.、Vinyals, O.(2019 年)。“使用 VQ-VAE-2 生成多样化的高保真图像”。↩︎↩︎ _

  3. Kingma、Diederik P. 和 Max Welling。“自动编码变分贝叶斯。” arXiv 预印本 (2013)。↩︎↩︎ _

  4. Rezende、Danilo Jimenez、Shakir Mohamed 和 Daan Wierstra。“深度生成模型中的随机反向传播和近似推理。” arXiv 预印本 (2014)。↩︎↩︎ _

  5. Jang, E., Gu, S., Poole, B. (2016)。“使用 Gumbel-softmax 进行分类重新参数化”。↩︎↩︎ _

  6. Maddison, C.、Mnih, A.、Teh, YW (2016)。“具体分布:离散随机变量的连续松弛”。↩︎↩︎ _

  7. Kanerva, P. (1997)。“完全分布式表示”。↩︎↩︎ _

  8. Reed, S.、Akata, Z.、Yan, X.、Logeswaran, L.、Schiele, B.、Lee, H. (2016)。“生成对抗文本到图像合成”。在 ICML 2016 中。↩︎

  9. Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016)。“ StackGAN:文本到具有堆叠生成对抗网络的逼真图像合成”。在ICCY 2017。↩︎

  10. Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017)。“ StackGAN ++:具有堆叠生成对抗网络的逼真图像合成”。在 IEEE TPAMI 2018 中。↩︎

  11. Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017)。“ AttnGAN:使用注意力生成对抗网络的细粒度文本到图像生成↩︎

  12. Reed, S.、Akata, Z.、Mohan, S.、Tenka, S.、Schiele, B.、Lee, H. (2016)。“学习画什么和在哪里画”。在 NIPS 2016 中。↩︎

  13. Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019)。“通过对抗训练进行对象驱动的文本到图像合成”。在 CVPR 2019 中。

    ↩︎
  14. Koh, JY、Baldridge, J.、Lee, H.、Yang, Y. (2020)。“基于细粒度用户注意力的文本到图像生成”。在 WACV 2021 中。

    ↩︎
  15. Nguyen, A.、Clune, J.、Bengio, Y.、Dosovitskiy, A.、Yosinski, J. (2016)。“即插即用生成网络:潜在空间中图像的条件迭代生成

    ↩︎
  16. Cho, J.、Lu, J.、Schwen, D.、Hajishirzi, H.、Kembhavi, A.(2020 年)。“ X-LXMERT:使用多模式转换器绘制、说明和回答问题”。欧洲自然语言处理 2020。

    ↩︎
  17. Andreas, J.、Klein, D.、Levine, S. (2017)。“用潜在语言学习”。

    ↩︎