在现代图像分类器中,全球平均池化(GAP)与线性分类头的结合被广泛采用。这种线性结构确保了图像级的 logits 等于在应用分类头于特征网格后逐点计算的 logits 的平均值。因此,标准分类器可能固有地保留空间类别证据,即使在图像级预测错误时,这些证据仍然可以恢复。这一结构自然暗示了多实例学习(MIL)的解释,其中图像被视为一组空间实例。
在这一框架下,我们证明了即使每幅图像只训练一个标签的标准分类器,仍然能够在多对象场景中学习预期的分类任务。我们进一步利用这一特性,将图像级 logits 分解为预测网格,从而提供一种事后诊断方法,以提取 GAP 所掩盖的空间类别证据。我们的系统评估显示,现成的模型在前景区域内一致地恢复了真实类别。MIL 的解释进一步表明,常见分类器的失败反映了均值聚合的已知局限性。
博主点评: 这篇文章揭示了全球平均池化的潜在缺陷,并提出了利用多实例学习的视角来改善分类器性能的思路。通过对空间类别证据的提取,研究者们能更好地理解模型的决策过程,这对未来的图像分类研究具有重要的启示意义。