[AI学术] MemTrace: 揭示长期记忆准确性缺失的真相

摘要

随着大型语言模型（LLM）代理越来越多地在会话间维护用户事实的长期记忆，现有的评估方法通常通过汇总问题行或会话的准确性来进行。然而，这种方法独立评估每个问题行，即使多个问题探测同一事实，也无法展示该事实在条件变化时的表现。

我们介绍了 MemTrace，一个基准测试，其测量单位是知识点：关于用户的单个已输入事实，而不是单独的问题。MemTrace 从三个受控维度探测每个事实：

记忆年龄，定义为该事实在历史中出现的会话数；
问题类型，涵盖当前状态、早期状态和变化轨迹；
证据条件，涵盖现有、缺失和被虚假前提所矛盾的情况。

通过评估四种范式下的13种记忆系统配置，我们发现相似的汇总准确性掩盖了不同的失败：恢复事实的当前和早期状态并不意味着能够追踪其变化，而安全的弃权并不意味着能够纠正虚假的前提。关键瓶颈在于证据的使用，而非检索：当系统失败时，证据的可获取性是缺失的10倍。这些结果表明，改进长期记忆需要更好地利用可获取的证据，而不仅仅是增加存储或检索能力。

博主点评： MemTrace 的提出为评估 LLM 长期记忆提供了新的视角，强调了证据使用的重要性。未来的研究可以基于此基准进一步探索优化记忆系统的策略。