[AI学术] 突破性跨尺度推理提升病理视觉语言模型

摘要

病理图像本质上是多尺度的，病理学家需要整合来自低倍放大镜下的整体组织结构与高倍放大镜下的细胞形态学证据，以进行准确诊断。现有的病理数据集虽然包含多种尺度，但通常缺乏明确的跨尺度推理目标。这一局限性阻碍了视觉语言模型（VLM）捕捉重要的跨尺度表征并学习基于证据的推理。

为了解决这一问题，我们提出了首个跨尺度训练与评估范式，将病理解读形式化为多倍放大推理。然而，创建此类任务面临一个关键挑战：多图像视觉问答（VQA）容易受到仅依赖文本的捷径影响，使得模型通过放大依赖的伪影而非视觉证据来猜测答案。为了解决这一问题，我们提出了一种泄漏感知的筛选管道，结合了对抗性的文本筛选与约束引导的问题设计。

通过该管道，我们构建了Scale-VQA，这是一个高质量基准，包含4,685个基于2,537张多倍放大病理图像的多选题。最后，我们提出了ScaleReasoner-R1，这是一个通过强化学习训练的模型，旨在优化跨尺度VQA任务的性能。ScaleReasoner-R1在我们的跨尺度推理基准上达到了最先进的性能，并在已建立的单尺度基准上也表现出色。研究结果表明，即使是有限的跨尺度监督也能显著提升病理理解能力。代码和演示将开源。

博主点评： 该研究通过引入跨尺度推理的概念，填补了病理学图像分析中的一个重要空白。通过有效的VQA设计与强化学习策略，提升了模型在复杂场景下的推理能力，具有重要的应用前景。开源代码将促进相关研究的进一步发展。