在现实决策中,高质量的时间序列预测至关重要。然而,传统的点对点指标往往无法揭示复杂的时间模式,并且与人类的直觉偏好不匹配。虽然“LLM作为评判者”的范式在文本评估中取得了突破性进展,为人类对评判的灵活性提供了支持,但其在时间序列中的应用仍然未被充分探讨。本文利用视觉语言模型(VLMs)作为时间序列预测的评判者,充分发挥其理解基于文本信息的时间序列图表的能力。具体而言,我们提出了一种新颖的框架,结合微观和宏观层面的判断,并依据上下文信息来评估时间序列预测。
为此,我们介绍了TimeVista,这是一个全面的VLM作为评判者基准,包含5563个时间序列样本,配有详细的评估标准。广泛的元评估表明,VLM在判断时表现出高度可靠性,与人类偏好的一致性显著高于传统指标。在此基准的基础上,我们全面评估了近期的时间序列基础模型(TSFMs)在VLM作为评判者范式下的表现。我们的结果表明,VLM作为稳健且可解释的评判者,为评估时间序列模型提供了全面且符合人类标准的参考。
博主点评: 本文通过引入视觉语言模型来评估时间序列预测,拓宽了模型评估的视角。TimeVista基准的建立不仅提升了评估的准确性,还为未来的研究提供了新的方向,尤其是在理解复杂时间模式方面。