[AI学术] 几何一致性内窥镜图像表示：结构化基础模型适应的导航革命

在单目内窥镜中，基于视觉的准确导航面临诸多挑战，如深度线索有限、组织纹理弱、非刚性变形以及跨领域的显著外观变化，这些都使得姿态估计、深度预测和图像与解剖结构的对齐变得复杂。尽管近期的视觉基础模型表现出一定的潜力，但其学习到的表示往往缺乏几何一致性，从而阻碍了特征的稳定对应，限制了其在下游导航任务中的可靠性。

为此，我们提出了一个统一框架，旨在为单目内窥镜学习几何一致和领域鲁棒的图像表示。该框架结合了一个合成数据管道，提供准确的几何监督，并引入了层次感知几何-语义适应方法，这是一种向标准 LoRA 的结构化替代方案，旨在选择性地在变换器层次中插入低秩适配器，并将其与逐层训练目标相结合，以促进中间特征的几何对应性和深层特征的语义一致性。

在公共和专有数据集上的实验表明，几何和语义表示质量得到了提升，从而在下游导航任务（包括姿态估计和单目深度估计）中表现更好。学习到的表示在临床支气管镜检查中的合成到真实转移表现良好，并为在有限监督下适应鼻窦内窥镜和结肠镜提供了有效的初始化。此外，该框架在模型规模和训练数据上的扩展性也表现出色。这些结果支持层次感知、几何引导的适应作为内窥镜表示学习的实用方法。

博主点评： 本文提出的几何一致性学习框架，结合了合成数据与层次感知适应，显著提升了内窥镜图像在导航任务中的表现，为医学图像处理提供了新的思路，尤其在临床应用中展现出良好的潜力。通过几何指导的特征学习，未来的内窥镜技术将更加精准和可靠。