摘要
随着大型语言模型(LLM)代理越来越多地在会话间维护用户事实的长期记忆,现有的评估方法通常通过汇总问题行或会话的准确性来进行。然而,这种方法独立评估每个问题行,即使多个问题探测同一事实,也无法展示该事实在条件变化时的表现。
我们介绍了 MemTrace,一个基准测试,其测量单位是知识点:关于用户的单个已输入事实,而不是单独的问题。MemTrace 从三个受控维度探测每个事实:
- 记忆年龄,定义为该事实在历史中出现的会话数;
- 问题类型,涵盖当前状态、早期状态和变化轨迹;
- 证据条件,涵盖现有、缺失和被虚假前提所矛盾的情况。
通过评估四种范式下的13种记忆系统配置,我们发现相似的汇总准确性掩盖了不同的失败:恢复事实的当前和早期状态并不意味着能够追踪其变化,而安全的弃权并不意味着能够纠正虚假的前提。关键瓶颈在于证据的使用,而非检索:当系统失败时,证据的可获取性是缺失的10倍。这些结果表明,改进长期记忆需要更好地利用可获取的证据,而不仅仅是增加存储或检索能力。
博主点评: MemTrace 的提出为评估 LLM 长期记忆提供了新的视角,强调了证据使用的重要性。未来的研究可以基于此基准进一步探索优化记忆系统的策略。