[AI学术] 突破性子语义图像分割技术

在图像分割领域，传统方法主要基于视觉线索进行纹理分割或对象的语义分割。本文提出了一种新的子语义图像分割类别，它模糊了这两者之间的界限。在子语义图像分割中，语言不用于命名整个对象，而是用于将图像划分为可以用语言描述的稳定外观模式。为了实现这一目标，我们将通用的视觉-语言模型与 SAM 3（一个可提示的分割骨干网络）相结合，其原生文本路径能够将丰富的描述转换为掩码。

然而，简单的结合存在多种问题。我们在论文中识别了这些问题，并通过引入 DETECTURE 解决了三种具体的失败模式：纹理区域之间的语言泄漏、分割骨干内部的提示竞争以及语言到掩码接口的语义失真。由于缺乏子语义图像分割的数据集，我们引入了一个新数据集，称为 TextureADE。这个新数据集是通过我们设计的系统从 ADE20K 数据集中派生而来的。

我们将 DETECTURE 与多个基线进行了比较，发现其在不同数据集上使用不同指标时表现最佳。相关代码可在 GitHub 上获取。

博主点评： 子语义图像分割的提出为图像处理领域开辟了新方向，特别是在细粒度视觉理解方面。结合语言与视觉的创新方法，标志着分割技术的一次重要进步，期待其在实际应用中的广泛推广。