[AI学术] 重新思考全球平均池化：你的分类器实际上是多实例学习者

在现代图像分类器中，全球平均池化（GAP）与线性分类头的结合被广泛采用。这种线性结构确保了图像级的 logits 等于在应用分类头于特征网格后逐点计算的 logits 的平均值。因此，标准分类器可能固有地保留空间类别证据，即使在图像级预测错误时，这些证据仍然可以恢复。这一结构自然暗示了多实例学习（MIL）的解释，其中图像被视为一组空间实例。

在这一框架下，我们证明了即使每幅图像只训练一个标签的标准分类器，仍然能够在多对象场景中学习预期的分类任务。我们进一步利用这一特性，将图像级 logits 分解为预测网格，从而提供一种事后诊断方法，以提取 GAP 所掩盖的空间类别证据。我们的系统评估显示，现成的模型在前景区域内一致地恢复了真实类别。MIL 的解释进一步表明，常见分类器的失败反映了均值聚合的已知局限性。

博主点评： 这篇文章揭示了全球平均池化的潜在缺陷，并提出了利用多实例学习的视角来改善分类器性能的思路。通过对空间类别证据的提取，研究者们能更好地理解模型的决策过程，这对未来的图像分类研究具有重要的启示意义。