转载

OpenAI研究 人工神经网络中的多模态神经元

我们在 CLIP 中发现了对相同概念做出反应的神经元,无论是字面上的、象征性的还是概念上的。这可以解释 CLIP 在对令人惊讶的概念视觉再现进行分类时的准确性,也是理解 CLIP 和类似模型学习的关联和偏见的重要一步。

十五年前,Quiroga 等人。1个 发现人脑拥有多模态神经元。这些神经元对以共同的高级主题为中心的抽象概念簇作出反应,而不是对任何特定的视觉特征做出反应。其中最著名的是“哈莉·贝瑞”神经元,该神经元同时出现在《 科学美国人 》和 《纽约时报》中,它对照片、草图和文本“哈莉·贝瑞”(但不是其他名字)做出反应。

两个月前,OpenAI 宣布了 CLIP,这是一种与 ResNet-50 性能相匹配的通用视觉系统,2个 但在一些最具挑战性的数据集上优于现有视觉系统。这些挑战数据集(  ObjectNet、  ImageNet Rendition和 ImageNet Sketch)中的每一个都对模型的鲁棒性进行了压力测试,不仅可以识别简单的扭曲或光照或姿势的变化,还可以完成抽象和重建——草图、卡通甚至雕像对象。

现在,我们发布了 CLIP 中存在多模式神经元的发现。例如,一个这样的神经元是一个“蜘蛛侠”神经元(与“哈莉贝瑞”神经元非常相似),它对蜘蛛图像、文本“蜘蛛”图像和漫画书做出反应穿着服装或插图的角色“蜘蛛侠”。

我们在 CLIP 中发现的多模态神经元为我们提供了一条线索,让我们了解什么可能是合成视觉系统和自然视觉系统的共同机制——抽象。我们发现 CLIP 的最高层将图像组织为思想的松散语义集合,为模型的多功能性和表示的紧凑性提供了简单的解释。

生物神经元通过深度电极探测哈莉·贝瑞
剪辑神经元CLIP RN50x4 中倒数第二层的神经元 244蜘蛛侠
以前的人工神经元Neuron 483,来自 Inception v1 的通用人体检测器人脸
回应哈莉贝瑞和哈莉贝瑞古装照
回应蜘蛛侠服装和蜘蛛的照片
回应人脸照片逼真的图像
回应哈莉·贝瑞 (Halle Berry) 的素描
响应蜘蛛侠和蜘蛛主题图标的漫画或图画
对面部图画没有明显反应概念图
响应文本“Halle Berry”
响应文本“蜘蛛”等
对文字反应不明显文字图片生物神经元,例如著名的 Halle Berry 神经元,不会为视觉的想法群而激发,而是为语义群而激发。在 CLIP 的最高层,我们发现了类似的语义不变性。请注意,图像已被 Quiroga 等人提供的更高分辨率替代品所取代,1以及 Quiroga 等人提供的图像。本身是原始刺激的替代品。

使用可解释性工具,我们对 CLIP 权重中存在的丰富视觉概念进行了前所未有的审视。在 CLIP 中,我们发现了涵盖人类视觉词典很大一部分的高级概念——地理区域、面部表情、宗教图像、名人等等。通过探测每个神经元对下游的影响,我们可以了解 CLIP 如何执行其分类。

CLIP 中的多模态神经元

我们的 论文 建立在近十年对解释卷积网络的研究之上,3456789 ,10 ,11 ,12 从观察到许多这些经典技术直接适用于 CLIP 开始。我们使用两种工具来理解模型的激活: 特征可视化6512 它通过对输入和 数据集示例进行基于梯度的优化来最大化神经元的放电,4个 它查看数据集中神经元的最大激活图像的分布。

使用这些简单的技术,我们发现 CLIP RN50x4(使用 EfficientNet 缩放规则放大 4 倍的 ResNet-50)中的大多数神经元都易于解释。事实上,这些神经元似乎是“多面神经元”的极端例子, 11 对多个不同情况做出反应的神经元,只是在更高的抽象层次上。

夏天
任何
文本
标识
建筑学
室内的
自然
姿势
冬天
任何
文本
标识
建筑学
室内的
自然
姿势
震惊
任何
文本
标识
建筑学
室内的
自然
姿势
1900年代中期
任何
文本
标识
建筑学
室内的
自然
姿势
自我+解脱
任何
文本
标识
建筑学
室内的
自然
姿势
圣诞节
任何
文本
标识
建筑学
室内的
自然
姿势
罗马艺术
任何
文本
标识
建筑学
室内的
自然
姿势
孩子的画
任何
文本
标识
建筑学
室内的
自然
姿势
美国
任何
文本
标识
建筑学
室内的
自然
姿势
印度
任何
文本
标识
建筑学
室内的
自然
姿势
任何
文本
标识
建筑学
室内的
自然
姿势
西非(非洲西部
任何
文本
标识
建筑学
室内的
自然
姿势

从四个 CLIP 模型的最后一层中选择的神经元。每个神经元都由带有人类选择的概念标签的特征可视化表示,以帮助快速提供每个神经元的感觉。除了特征可视化之外,在查看了数百个激活神经元的刺激后,选择了标签。我们选择在此处包含一些示例,以展示模型对区域、情绪和其他概念的刻板描述的倾向。我们还看到了神经元分辨率水平的差异:虽然某些国家(如美国和印度)与定义明确的神经元相关,但非洲国家的情况并非如此,那里的神经元往往会在整个区域激发。我们将在后面的部分讨论其中的一些偏见及其影响。

事实上,我们惊讶地发现其中许多类别似乎反映了癫痫患者颅内深度电极记录的内侧颞叶神经元。这些包括对情绪做出反应的神经元,13 动物,14 和名人。1个

但是我们对 CLIP 的调查揭示了更多这样奇怪而奇妙的抽象,包括似乎可以计数的神经元 [ 17、202、310  ]、 对艺术风格做出反应的神经元 [ 75、587、122 甚至是具有数字改变证据图像 [  1640 ] ].

缺席的概念

虽然此分析显示了广泛的概念,但我们注意到,神经元级别的简单分析不能代表模型行为的完整文档。CLIP 的作者已经证明,例如,该模型能够进行非常精确的地理定位,15 (附录 E.4,图 20),粒度向下延伸到城市甚至社区的级别。事实上,我们提供了一个轶事:我们注意到,通过 CLIP 运行我们自己的个人照片,CLIP 通常可以识别照片是否是在旧金山拍摄的,有时甚至是附近地区(例如,“双峰”)。

然而,尽管我们尽了最大努力,我们还没有找到“旧金山”神经元,而且从归因来看,旧金山似乎也没有很好地分解成有意义的单位概念,如“加利福尼亚”和“城市”。我们相信这些信息在某个地方的模型激活中被编码,但以一种更奇特的方式,作为一个方向或作为一些其他更复杂的流形。我们相信这是进一步研究的一个富有成果的方向。

多模态神经元如何组成

这些多模态神经元可以让我们深入了解 CLIP 如何执行分类。使用稀疏线性探头,15 我们可以很容易地检查 CLIP 的权重,看看哪些概念结合起来实现了 ImageNet 分类的最终分类:

存钱罐
=
2.5
金融
+
1.1
洋娃娃、玩具
+
...
谷仓蜘蛛
=
2.9
蜘蛛侠
+
1.5
动物
+
...
存钱罐类似乎是“金融”神经元和陶瓷神经元的组合。论文第一部分提到的蜘蛛侠神经元也是蜘蛛检测器,在“谷仓蜘蛛”类的分类中起着重要作用。

对于文本分类,一个关键的观察结果是这些概念以一种类似于 word2vec 目标的方式包含在神经元中,16几乎 是 线性的。因此,这些概念形成了一个简单的代数,其行为类似于线性探头。通过将注意力线性化,我们也可以检查任何句子,就像线性探测一样,如下所示:

吃惊
=
1.0
庆祝,拥抱
+
1.0
震惊
+
0.17
微笑,咧嘴笑
亲密的
=
1.0
温柔的微笑
+
0.92
0.8
疾病
探究 CLIP 如何理解单词,在模型看来,“惊讶”一词不仅意味着某种程度的震惊,而且还意味着一种非常特殊的震惊,可能与喜悦或惊奇相结合。“亲密”包括柔和的微笑和心,但不是疾病。我们注意到,这揭示了对完整的人类亲密体验的还原理解——疾病的减法排除了,例如,与生病的亲人的亲密时刻。我们在探究 CLIP 对语言的理解时发现了很多这样的遗漏。

抽象谬误

CLIP 中的抽象程度呈现出一种新的攻击向量,我们认为这在以前的系统中没有表现出来。与许多深度网络一样,模型最高层的表示完全由此类高级抽象支配。然而,CLIP 的不同之处在于程度——CLIP 的多模态神经元概括了文字和图标,这可能是一把双刃剑。

通过一系列精心构建的实验,我们证明了我们可以利用这种还原行为来欺骗模型进行荒谬的分类。我们观察到 CLIP 中神经元的激发通常可以通过它对 文本图像的响应来控制,从而提供了一个简单的攻击模型的向量。

例如,金融神经元 [ 1330 ] 会响应存钱罐的图像,但也会响应字符串“$$$”。通过强迫金融神经元开火,我们可以欺骗我们的模型,将狗归类为存钱罐。

图像:
grid = RuntimeError: 获取失败
通过在图像上渲染文本,我们人为地刺激神经元 1330,该神经元在线性探针中具有较高的权重,进入“存钱罐”类。这会导致分类器将标准贵宾犬错误分类为存钱罐。

野外攻击

我们将这些攻击称为 排版攻击。我们认为,上述攻击远不仅仅是学术问题。通过利用模型稳健地阅读文本的能力,我们发现即使是 手写文本的照片也 常常可以骗过模型。就像对抗补丁一样,17 这种攻击在野外有效;但与此类攻击不同的是,它只需要笔和纸即可。

图像:
grid = RuntimeError: 获取失败
通过在图像上渲染文本,我们人为地刺激神经元 1330,该神经元在线性探针中具有较高的权重,进入“存钱罐”类。这会导致分类器将标准贵宾犬错误分类为存钱罐。

我们还认为,这些攻击也可能采取更隐蔽、更不显眼的形式。提供给 CLIP 的图像以许多微妙和复杂的方式进行了抽象,这些抽象可能会过度抽象常见的模式——过度简化,并因此而过度概括。

偏见和过度概括

尽管我们的模型是在互联网的一个精选子集上接受训练的,但它仍然继承了许多未经检查的偏见和关联。我们发现的许多关联似乎是良性的,但我们已经发现了几个案例,其中 CLIP 持有可能导致代表性伤害的关联,例如对某些个人或团体的诋毁。

 例如,我们观察到一个与恐怖主义有关的“中东”神经元 [1895] ; 和一个对拉丁美洲有反应的“移民”神经元 [395] 。我们甚至发现了一个神经元,它可以同时为深色皮肤的人和大猩猩 [ 1257 ] 激活,反映了我们认为不可接受的其他模型中早期的照片标记事件。18

这些关联对这种强大的视觉系统的应用提出了明显的挑战。A[A]

请注意,已发布的 CLIP 模型仅用于研究目的。请参阅相关 型号卡片

无论是微调还是使用零样本,这些偏差和关联很可能会保留在系统中,其影响在部署过程中以可见和几乎不可见的方式显现。许多有偏见的行为可能难以先验地预测,这使得它们的测量和纠正变得困难。我们相信,这些可解释性工具可以帮助从业者通过提前发现其中的一些关联和歧义来预防潜在问题。

我们自己对 CLIP 的理解仍在发展,我们仍在决定是否以及如何发布大版本的 CLIP。我们希望社区对已发布版本的进一步探索以及我们今天宣布的工具将有助于促进对多模式系统的普遍理解,并为我们自己的决策提供信息。

结论

除了“人工神经网络中的多模态神经元”的发布外,我们还发布了一些我们自己用来理解 CLIP 的工具——OpenAI 显微镜目录已更新为 每个 神经元的特征可视化、数据集示例和文本特征可视化在 CLIP RN50x4 中。我们还发布了 CLIP RN50x4RN101的权重 ,以进一步适应此类研究。我们相信,这些对 CLIP 的调查只是了解 CLIP 行为的冰山一角,我们邀请研究社区加入,以提高我们对 CLIP 和类似模型的理解。

访问 OpenAI 显微镜

脚注

  1. 请注意,已发布的 CLIP 模型仅用于研究目的。请参阅相关 型号卡片↩︎

参考

  1. Quiroga, RQ、Reddy, L.、Kreiman, G.、Koch, C. 和 Fried, I. (2005)。 人脑中单个神经元的不变视觉表示。 自然,435 (7045),1102-1107。↩︎↩︎ _

  2. He, K.、Zhang, X.、Ren, S. 和 Sun, J. (2016)。 用于图像识别的深度残差学习。在 IEEE 计算机视觉和模式识别会议论文集 (第 770-778 页)中。↩︎

  3. Erhan, D.、Bengio, Y.、Courville, A. 和 Vincent, P. (2009)。 可视化深层网络的高层特征。 蒙特利尔大学, 1341 (3), 1. ↩︎

  4. Szegedy, C.、Zaremba, W.、Sutskever, I.、Bruna, J.、Erhan, D.、Goodfellow, I. 和 Fergus, R. (2013)。 神经网络的有趣特性。 arXiv 预印本 arXiv:1312.6199↩︎↩︎ _

  5. Mahendran, A., & Vedaldi, A. (2014)。 通过反转它们来理解深度图像表示。 arXiv 预印本 arXiv:1412.0035↩︎↩︎ _

  6. Nguyen, A.、Yosinski, J. 和 Clune, J. (2015)。 深度神经网络很容易被愚弄:对无法识别的图像进行高置信度预测。在 IEEE 计算机视觉和模式识别会议论文集 (第 427-436 页)中。↩︎↩︎ _

  7. Øygard, A. (2015)。 可视化 GoogLeNet 类。 访问于↩︎

  8. Mordvintsev, A.、Olah, C. 和 Tyka, M. (2015)。 Inceptionism:深入神经网络↩︎

  9. Nguyen, A.、Dosovitskiy, A.、Yosinski, J.、Brox, T. 和 Clune, J. (2016)。 通过深度生成器网络为神经网络中的神经元合成首选输入。 arXiv 预印本 arXiv:1605.09304。 ↩︎

  10. Nguyen, A.、Clune, J.、Bengio, Y.、Dosovitskiy, A. 和 Yosinski, J. (2017)。 即插即用生成网络:潜在空间中图像的条件迭代生成。在 IEEE 计算机视觉和模式识别会议论文集 (第 4467-4477 页)中。↩︎

  11. Nguyen, A.、Yosinski, J. 和 Clune, J. (2016)。 多方面特征可视化:揭示深度神经网络中每个神经元学习到的不同类型的特征。 arXiv 预印本 arXiv:1602.03616↩︎↩︎ _

  12. Olah, C.、Mordvintsev, A. 和 Schubert, L. (2017)。 特征可视化。 蒸馏, 2(11), e7. ↩︎↩︎ _

  13. Fried, I.、MacDonald, KA 和 Wilson, CL (1997)。 在人脸和物体识别过程中,人类海马体和杏仁核中的单个神经元活动。 神经元,18 (5),753-765。↩︎

  14. Kreiman, G.、Koch, C. 和 Fried, I. (2000)。 人类内侧颞叶单个神经元的类别特异性视觉反应。 自然神经科学,3 (9),946-953。↩︎

  15. Radford, A.、Jozefowicz, R. 和 Sutskever, I.(2017 年)。 学习生成评论和发现情绪。 arXiv 预印本 arXiv:1704.01444↩︎↩︎ _

  16. Mikolov, T.、Chen, K.、Corrado, G. 和 Dean, J. (2013)。 向量空间中词表示的有效估计。 arXiv 预印本 arXiv:1301.3781↩︎

  17. Brown, TB、Mané, D.、Roy, A.、Abadi, M. 和 Gilmer, J.(2017 年)。 对抗补丁。 arXiv 预印本 arXiv:1712.09665↩︎

  18. Crawford, K. & Paglen, T. (2019)。 挖掘人工智能:机器学习训练集中图像的政治。 挖掘人工智能↩︎

作者

致谢

Sandhini Agarwal、Greg Brockman、Miles Brundage、Jeff Clune、Steve Dowling、Jonathan Gordon、Gretchen Krueger、Faiz Mandviwalla、Vedant Misra、Reiichiro Nakano、Ashley Pilipiszyn、Alec Radford、Aditya Ramesh、Pranav Shyam、Ilya Sutskever、Martin Wattenberg 和 Hannah Wong

详细论文