在实际应用中,时间序列数据通常是不规则的。观察结果是异步的,缺失值是有信息量的而非随机的,且不同传感器和操作窗口的采样频率各异。
然而,现有的时间序列问答(TSQA)基准大多假设输入是规则采样的,这在理解大型语言模型(LLMs)和AI代理在不规则条件下的表现上留下了根本性的空白。
为了解决这个问题,我们推出了IRTS-ToolBench,这是一个包含1700个问题的基准,涵盖13个领域的10种任务类型。IRTS-ToolBench旨在供任何从事基于LLM的不规则时间序列分析的研究人员独立使用,提供标准化输入和可重复的评估协议。代码可以在 GitHub 找到。
博主点评: 该研究为不规则时间序列数据的分析提供了新的基准和工具,填补了现有方法在实际应用中的不足。IRTS-ToolBench的推出将为研究者提供必要的资源,推动相关领域的深入探索和应用落地。