引言
个人助手的记忆在将存储的信息和过去的互动转化为未来导向的帮助方面起着核心作用。日常使用中,代理观察到的内容及用户与代理的交互所产生的有效线索至关重要,代理必须将这些信息从当前请求转移到类似的未来任务中。
现有问题
目前的记忆基准通常单独测试对话回忆或任务改进,未能系统性地考察从流式观察到后续帮助的过程。
StreamMemBench 介绍
我们提出了 StreamMemBench,这是一个流式基准,围绕 EgoLife 自我中心流的每个证据锚构建了一个两步任务序列。初始任务测试证据的使用,而后续任务则检验反馈和交互经验的重用。
评估指标
该基准使用四个指标来诊断证据回忆、初始证据使用、反馈整合和后续重用。
实验结果
在两个基础架构上对八个记忆系统的实验表明,当前系统在利用观察到的证据或将反馈转化为可靠的后续行为方面常常失败,即便证据被存储或反馈在局部得到了整合。
StreamMemBench 可以在以下链接公开获取:GitHub - StreamMemBench。
博主点评: StreamMemBench 的提出填补了流式记忆评估的空白,通过系统性地测试从观察到的证据到后续任务的转化过程,为未来智能助手的发展提供了重要的参考框架。其对现有系统的评估也揭示了当前技术的不足,推动了领域的深入研究。