在大型语言模型(LLM)的推理中,思维链是短暂的:上下文窗口结束后,思维过程消失,修剪的搜索分支没有记录,内存缓冲区无法进行差异化、合并或审计。与其他复杂软件过程(代码、基础设施、数据、实验)不同,推理过程并未实现版本控制。我们提出了 GitOfThoughts,它将智能体的推理树存储为 git 仓库:每个评分的思考都是一个提交,分数是备注,结果是标签,而检索则是对智能体自身历史的“git log”。这使得推理过程可重放、可审计,并且在几乎零工程成本下可以跨智能体进行合并。
接下来,我们探讨了一个更为复杂的问题:在任何基础上,记忆是否真的提高了准确性?在五种基础(无、markdown、向量、图、git)、两个基准、两个模型规模以及预注册的复现实验中,答案是针对新问题的“否”。没有任何记忆格式能可靠地提供帮助,甚至一个有前景的早期结果在其预注册复现中也崩溃了。记忆仅在我们称之为可复制阈值以上时才有所回报:当检索到的案例与当前问题的相似度约为 0.8 时,准确性急剧上升;而低于此阈值则无效。收益在于答案检索,而非方法转移:一个 4.5 倍大的模型可以将近似重复的收益翻倍,但仍然无法从已解决示例中提取可转移的方法。我们发现的唯一通用杠杆是测试时间采样。因此,使用 git 作为基础的理由在于审计性、来源和可合并性与准确性相当。我们记录了一项被撤回的结果和一个被驳斥的假设,以体现我们所遵循的评估标准。
博主点评: GitOfThoughts 提出了一种创新的方式来管理智能体的推理过程,利用版本控制来实现可审计和可重放的推理链。然而,记忆的有效性似乎受到限制,强调了在智能体学习中,数据的相似性与准确性之间的复杂关系。