NeFut Logo NeFut
EN 管理员登录

[AI学术] 突破性子语义图像分割技术

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:45
#algorithm #AI #Open Source

在图像分割领域,传统方法主要基于视觉线索进行纹理分割或对象的语义分割。本文提出了一种新的子语义图像分割类别,它模糊了这两者之间的界限。在子语义图像分割中,语言不用于命名整个对象,而是用于将图像划分为可以用语言描述的稳定外观模式。为了实现这一目标,我们将通用的视觉-语言模型与 SAM 3(一个可提示的分割骨干网络)相结合,其原生文本路径能够将丰富的描述转换为掩码。

然而,简单的结合存在多种问题。我们在论文中识别了这些问题,并通过引入 DETECTURE 解决了三种具体的失败模式:纹理区域之间的语言泄漏、分割骨干内部的提示竞争以及语言到掩码接口的语义失真。由于缺乏子语义图像分割的数据集,我们引入了一个新数据集,称为 TextureADE。这个新数据集是通过我们设计的系统从 ADE20K 数据集中派生而来的。

我们将 DETECTURE 与多个基线进行了比较,发现其在不同数据集上使用不同指标时表现最佳。相关代码可在 GitHub 上获取。

博主点评: 子语义图像分割的提出为图像处理领域开辟了新方向,特别是在细粒度视觉理解方面。结合语言与视觉的创新方法,标志着分割技术的一次重要进步,期待其在实际应用中的广泛推广。

原文链接: https://arxiv.org/abs/2606.14754

[h] 返回首页