[AI学术] TimeVista：利用视觉语言模型评估时间序列预测的创新探索

在现实决策中，高质量的时间序列预测至关重要。然而，传统的点对点指标往往无法揭示复杂的时间模式，并且与人类的直觉偏好不匹配。虽然“LLM作为评判者”的范式在文本评估中取得了突破性进展，为人类对评判的灵活性提供了支持，但其在时间序列中的应用仍然未被充分探讨。本文利用视觉语言模型（VLMs）作为时间序列预测的评判者，充分发挥其理解基于文本信息的时间序列图表的能力。具体而言，我们提出了一种新颖的框架，结合微观和宏观层面的判断，并依据上下文信息来评估时间序列预测。

为此，我们介绍了TimeVista，这是一个全面的VLM作为评判者基准，包含5563个时间序列样本，配有详细的评估标准。广泛的元评估表明，VLM在判断时表现出高度可靠性，与人类偏好的一致性显著高于传统指标。在此基准的基础上，我们全面评估了近期的时间序列基础模型（TSFMs）在VLM作为评判者范式下的表现。我们的结果表明，VLM作为稳健且可解释的评判者，为评估时间序列模型提供了全面且符合人类标准的参考。

博主点评： 本文通过引入视觉语言模型来评估时间序列预测，拓宽了模型评估的视角。TimeVista基准的建立不仅提升了评估的准确性，还为未来的研究提供了新的方向，尤其是在理解复杂时间模式方面。