OpenAI研究 通过 L₀ 正则化学习稀疏神经网络
我们提出了一种用于神经网络 L₀ 范数正则化的实用方法:通过鼓励权重恰好变为零来在训练期间修剪网络。这种正则化很有趣,因为 (1) 它可以大大加快训练和推理,(2) 它可以提高泛化能力。AIC 和 BIC,众所周知的模型选择标准,是 L₀ 正则化的特例。然而,由于权重的 L₀ 范数是不可微分的,我们不能将其直接作为目标函数中的正则化项。我们通过包含一组非负随机门来提出解决方案,这些门共同确定将哪些权重设置为零。我们表明,有些令人惊讶的是,对于门上的某些分布,结果门控权重的预期 L₀ 范数相对于分布参数是可微分的。我们进一步提出门的硬混凝土分布,它是通过“拉伸”二元混凝土分布然后用硬 sigmoid 变换其样本获得的。然后可以与原始网络参数联合优化门上的分布参数。因此,我们的方法允许直接有效地学习具有随机梯度下降的模型结构,并允许以有原则的方式进行条件计算。我们进行了各种实验来证明所得方法和正则化器的有效性。