转载

OpenAI研究 测试针对不可预见的对手的稳健性

我们开发了一种方法来评估神经网络分类器是否能够可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR(不可预见的攻击鲁棒性),它评估单个模型对意外攻击的鲁棒性,并强调需要在更多样化的不可预见的攻击范围内衡量性能。

现代神经网络已经在广泛的基准任务上实现了高精度。然而,它们仍然容易受到 对抗性示例的影响,这些示例是对手为愚弄网络而创建的小而精心设计的输入扭曲。例如,对抗性的例子 大号 大号∞的下面的失真在每个 RGB 像素值中与原始图像最多相差 32;人类仍然可以对更改后的图像进行分类,但它肯定会被标准神经网络错误分类。

由具有不同失真类型的对抗性攻击生成的示例图像(黑天鹅)。每个失真都经过优化以欺骗网络。

Swan Linf

大号大号∞的:每个像素值最多可以改变 32。

Swan L1

大号1个大号1个的: 像素值的向量可能会被一个有界的向量改变大号1个大号1个的-规范。

Swan L2

大号2个大号2个的-JPEG:图像被转换为 JPEG 压缩矢量并被扭曲。

Swan Elastic

弹性:沿局部矢量场的流动应用于图像。

Swan Fog 1

雾:对图像应用有界幅度的雾状失真。

Swan Gabor

Gabor:加性噪声被添加到图像的对抗纹理中。

Swan Snow

雪:雪花被对抗性地构造以部分模糊图像。

部署在野外的人工智能系统需要对不可预见的攻击具有鲁棒性,但到目前为止,大多数防御措施都集中在特定的已知攻击类型上。该领域在强化针对此类攻击的模型方面取得了进展;然而,针对一种类型的失真的稳健性 通常不会转移 针对 模型 设计者 无法预见的攻击的稳健性。因此,仅针对单一失真类型进行评估可能会给野外模型带来一种错误的安全感,该模型可能仍然容易受到不可预见的攻击,例如 假眼镜 和 对抗性贴纸 

显示失真 A 和失真 B 之间负迁移的图表

对抗性鲁棒性不能很好转移的例子。针对失真 A 强化模型最初会增加针对失真 A 和 B 的鲁棒性。然而,随着我们进一步强化,对抗性鲁棒性会因失真 B 而受到损害,但对于失真 A 仍大致相同;(A = L ∞ , B =  L 1 )。模型针对 Distortion A 的准确性在强化级别为 8 时达到峰值,因为这足以抵御攻击,进一步强化会损害干净的准确性;有关详细信息,请参阅全文。

方法原则

我们创建了一个三步法来评估模型对新的保留类型失真的表现。我们的方法针对各种失真大小的各种不可预见的攻击进行评估,并将结果与了解失真类型的强大防御进行比较。它还产生了一个新的指标 UAR,它评估模型针对不可预见的失真类型的对抗鲁棒性。

1. 针对各种不可预见的失真类型进行评估

对抗防御的典型论文仅针对广泛研究的 大号大号∞的或者 大号2个 大号2个的失真类型。然而,我们 表明 ,针对扭曲进行评估可以提供关于对抗性鲁棒性的非常相似的信息。A[A]

大号大号p的失真允许将图像视为矢量X要变形为矢量的像素值X‘这样X和X‘接近于大号大号p的规范。

我们的结论是,评估 大号 大号p的失真不足以预测针对其他失真类型的对抗鲁棒性。相反,我们建议研究人员针对与训练中使用的模型不同的对抗性扭曲来评估模型。我们提供 大号1个大号1个的, 大号2个 大号2个的-JPEG、Elastic 和 Fog 攻击作为起点。我们在我们的代码包中为各种攻击提供实现、预训练模型和校准 。

2.选择针对强大模型校准的各种失真大小

我们发现,考虑过窄的失真大小范围可能会推翻关于对抗鲁棒性的定性结论。为了选择一个范围,我们检查由不同失真大小的攻击产生的图像,并选择图像仍然可被人类识别的最大范围。但是,如下所示,具有较大失真预算的攻击仅将其用于强大的防御。我们建议通过对经过对抗训练的模型进行评估来选择一个校准范围的失真大小(我们还在我们的代码包中为各种攻击提供了校准大小 )。

应用于不同防御模型的相同强攻击的示例图像(浓缩咖啡机)。攻击更强的防御会导致更大的视觉失真。

摩卡咖啡壶的变形照片

不设防

摩卡咖啡壶的变形照片

防御薄弱

A distorted photograph of a moka coffee pot

严防死守

3. 针对对抗训练模型的基准对抗鲁棒性

我们开发了一个新的指标 UAR,该指标将模型针对攻击的稳健性与针对该攻击的对抗训练进行了比较。对抗训练是一种强大的防御,它通过对受到对抗攻击的图像进行训练来利用对手的知识。[乙]

为了计算 UAR,我们对多个失真大小的防御精度进行平均,并通过对抗训练模型的性能进行归一化;我们的论文中有一个精确的定义。

针对不可预见的对抗性攻击,UAR 得分接近 100 意味着性能与事先知道攻击的防御相当,这使得这是一个具有挑战性的目标。

我们计算了几种不同失真类型的对抗训练模型的 UAR 分数。如下所示,对抗性训练赋予的稳健性并没有广泛转移到不可预见的扭曲上。事实上,针对已知失真的稳健性会降低针对不可预见失真的稳健性。这些结果强调了针对 Elastic、Fog、Gabor 和 Snow 等更加多样化的攻击进行评估的必要性。

A table of UAR scores for adversarially trained models

下一步

我们希望开发对抗性鲁棒模型的研究人员将使用我们的方法来评估更多样化的不可预见的攻击。我们的 代码 包括一套攻击、经过对抗训练的模型和校准,可以轻松计算 UAR。


脚注

  1. 大号大号p的失真允许将图像视为矢量X要变形为矢量的像素值X‘这样X和X‘接近于大号大号p的规范。↩︎

  2. 为了计算 UAR,我们对多个失真大小的防御精度进行平均,并通过对抗训练模型的性能进行归一化;我们的论文中有一个精确的定义。↩︎