NeFut Logo NeFut
EN 管理员登录

[AI学术] 几何一致性内窥镜图像表示:结构化基础模型适应的导航革命

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:47
#AI #Machine Learning #Open Source

在单目内窥镜中,基于视觉的准确导航面临诸多挑战,如深度线索有限、组织纹理弱、非刚性变形以及跨领域的显著外观变化,这些都使得姿态估计、深度预测和图像与解剖结构的对齐变得复杂。尽管近期的视觉基础模型表现出一定的潜力,但其学习到的表示往往缺乏几何一致性,从而阻碍了特征的稳定对应,限制了其在下游导航任务中的可靠性。

为此,我们提出了一个统一框架,旨在为单目内窥镜学习几何一致和领域鲁棒的图像表示。该框架结合了一个合成数据管道,提供准确的几何监督,并引入了层次感知几何-语义适应方法,这是一种向标准 LoRA 的结构化替代方案,旨在选择性地在变换器层次中插入低秩适配器,并将其与逐层训练目标相结合,以促进中间特征的几何对应性和深层特征的语义一致性。

在公共和专有数据集上的实验表明,几何和语义表示质量得到了提升,从而在下游导航任务(包括姿态估计和单目深度估计)中表现更好。学习到的表示在临床支气管镜检查中的合成到真实转移表现良好,并为在有限监督下适应鼻窦内窥镜和结肠镜提供了有效的初始化。此外,该框架在模型规模和训练数据上的扩展性也表现出色。这些结果支持层次感知、几何引导的适应作为内窥镜表示学习的实用方法。

博主点评: 本文提出的几何一致性学习框架,结合了合成数据与层次感知适应,显著提升了内窥镜图像在导航任务中的表现,为医学图像处理提供了新的思路,尤其在临床应用中展现出良好的潜力。通过几何指导的特征学习,未来的内窥镜技术将更加精准和可靠。

原文链接: https://arxiv.org/abs/2606.17340

[h] 返回首页