[AI学术] MMLongEmbed：长文本场景下多模态嵌入模型的基准评估

摘要

近期的进展显著扩展了多模态嵌入模型（MEMs）的理论上下文窗口。然而，较大的上下文窗口并不意味着能够有效地理解和表示长文本的多模态输入，这仍然是现实应用中的一个关键瓶颈。为了解决这一评估缺乏系统性的现状，我们推出了 MMLongEmbed，这是评估 MEMs 在长文本场景下的第一个综合基准。

MMLongEmbed 包括四个检索任务，跨越多个上下文长度范围，涵盖文本、文档和视频模态。通过对最先进模型的广泛评估，我们发现当前架构严重依赖表层特征匹配，难以捕捉深层语义和结构依赖关系。我们进一步观察到，性能下降与上下文长度和关键信息位置之间存在系统性关系。此外，模型在不同模态中对冗余上下文信息的鲁棒性差异显著。为了确保可重复性，该基准和代码已公开。

博主点评： MMLongEmbed 的推出为多模态嵌入模型在长文本场景下的评估提供了重要的参考，尤其是在当前模型普遍存在的表面特征匹配问题上。这一工作不仅填补了评估的空白，还为后续研究提供了坚实的基础。希望未来的研究能更深入地探讨如何提升模型在长文本理解中的能力。