转载

OpenAI研究 深双血统

我们表明, 双重 下降 现象 发生在 CNN、ResNet 和 Transformer 中:性能先提高,然后变差,然后随着模型大小、数据大小或训练时间的增加再次提高。通过仔细的正则化通常可以避免这种影响。虽然这种行为似乎相当普遍,但我们还没有完全理解它发生的原因,并将对这种现象的进一步研究视为一个重要的研究方向。


帧 1 3

许多现代深度学习模型,包括 CNN、ResNet 和 Transformer,在不使用提前停止或正则化时都表现出先前观察到的  下降 现象 。峰值可预见地出现在“临界状态”,模型几乎无法适应训练集。当我们增加神经网络中的参数数量时,测试误差最初会减少,然后会增加,并且,正如模型能够适应训练集一样,会经历第二次下降。

既没有经典统计学家认为 太大模型更糟糕的传统智慧,也没有坚持更大模型更好的 现代 ML 范式  。我们发现双重下降也发生在火车时期。令人惊讶的是,我们表明这些现象会导致更多数据受到伤害的制度,并且在更大的训练集上训练深度网络实际上表现更差。

模型方面的双重下降

1. 有一种制度,越大的模型越差。

基于 ResNet18 宽度参数的图表和测试和训练误差

模型方面的双重下降现象可能会导致在更多数据上进行训练会受到伤害。在上图中,测试误差的峰值出现在插值阈值附近,此时模型刚好大到足以适应训练集。

在我们观察到的所有情况下,影响插值阈值的变化(例如改变优化算法、训练样本的数量或标签噪声的数量)也会相应地影响测试误差峰值的位置。双下降现象在添加标签噪声的设置中最为突出;没有它,峰值较小且容易错过。添加标签噪声会放大这种一般行为,并使我们能够轻松进行调查。

采样非单调性

2.有一个制度,更多的样本会受到伤害。

基于模型大小的 4k 训练样本和 18k 训练样本的交叉熵测试损失图

上图显示了在没有添加标签噪声的情况下接受语言翻译任务训练的变压器。正如预期的那样,增加样本数量会使曲线向下移动以降低测试误差。然而,由于更多的样本需要更大的模型来拟合,增加样本数量也会将插值阈值(和测试误差的峰值)向右移动。

对于中间模型大小(红色箭头),这两种效果结合在一起,我们看到训练 4.5 倍以上的样本实际上会损害测试性能。

划时代的双重血统

3. 有一种训练时间更长可以逆转过度拟合的机制。

时代列车
纪元测试

上面的图表显示了测试和训练误差作为模型大小和优化步骤数的函数。对于给定数量的优化步骤(固定 y 坐标),测试和训练误差表现出模型大小双下降。对于给定的模型大小(固定的 x 坐标),随着训练的进行,测试和训练误差会再次减少、增加和减少;我们称这种现象为划时代的双重下降。

一般来说,当模型刚好能够适应训练集时,测试误差的峰值会系统地出现。

我们的直觉是,对于处于插值阈值的模型,实际上只有一个模型适合训练数据,并且强迫它适应即使有轻微噪声或错误指定的标签也会破坏其全局结构。也就是说,不存在既能对训练集进行插值又能在测试集上表现良好的“好模型”。然而,在过度参数化的情况下,有很多模型适合训练集,并且存在这样好的模型。此外,由于我们尚不了解的原因,随机梯度下降 (SGD) 的隐式偏差导致了如此好的模型。

我们将充分理解深度神经网络中双重下降背后的机制作为一个重要的开放性问题。

详细论文