摘要
多模态大型语言模型(MLLMs)在众多视觉任务中展现了令人瞩目的能力,但在复杂的开放世界场景中,它们在事实基础方面常常存在困难。尽管近期的多模态深度搜索代理试图通过利用外部工具来解决这一问题,但视觉原生搜索范式仍然未得到充分探索。现有方法主要依赖于简单的图像和仅文本的证据轨迹,限制了代理进行多跳、跨模态推理和搜索的能力。
为了解决这些局限性,我们提出了 Visual-Seeker,一种通过主动视觉推理实现的视觉原生多模态深度搜索代理。我们的代理不再将视觉视为静态输入,而是主动关注细粒度的视觉细节,在搜索过程中动态收集视觉证据。为了释放其视觉原生潜力,我们设计了一条主动视觉推理数据管道,并合成了 5K 高质量的多模态轨迹用于模型训练。
大量实验表明,Visual-Seeker 在五个具有挑战性的多模态搜索基准上表现出最先进的性能,甚至超越了几种专有模型,验证了在真实网络环境中强大的视觉原生推理和搜索能力。
代码和数据可访问:Visual-Seeker GitHub
博主点评: Visual-Seeker 的提出为多模态搜索领域注入了新的活力,通过主动视觉推理的方式,极大提升了模型在复杂场景下的表现。其创新的数据管道和高质量的训练集为未来的研究提供了坚实基础,值得关注。