[AI学术] 重塑网络结构：Squeeze-Release 精确结构最小化迭代修剪

在无结构修剪中，产生稀疏权重张量，但标准实现保持张量形状不变，因此部署的模型在修剪前后并没有变小。我们提出了一种称为最小化的精确结构重写，将掩码网络转换为一个更小的稠密网络，其前向函数在浮点舍入上保持一致。Squeeze-Release 循环迭代修剪和最小化，中间的释放步骤重新启用紧凑张量内部的精确零位置，作为小的校准噪声，从而将原本浪费的容量转化为可训练参数。连续的循环利用这些容量来发现单次遍历无法达到的结构冗余。

此外，我们引入 CompensatedLayerNorm，这是 LayerNorm 的一个功能保留替代方案，扩展了在装备了 LayerNorm 的残差流中进行通道减少的最小化。Squeeze-Release 将可部署网络压缩至未修剪模型的 39 倍更小，在现代 CNN（ConvNeXt-Tiny）上压缩至 14.8 倍，且保持相似的准确率。此外，我们证明了该重写可以扩展到变换器架构中。

博主点评： Squeeze-Release 方法通过精确重写和迭代修剪有效地压缩了神经网络，展示了在保持模型性能的同时显著降低模型大小的潜力。这种方法对大规模模型的部署具有重要意义，尤其是在资源受限的环境中。其在变换器架构的扩展性也为未来的研究提供了新的方向。