[AI学术] GitOfThoughts：可重放、差异化和合并的版本控制推理与智能体记忆

在大型语言模型（LLM）的推理中，思维链是短暂的：上下文窗口结束后，思维过程消失，修剪的搜索分支没有记录，内存缓冲区无法进行差异化、合并或审计。与其他复杂软件过程（代码、基础设施、数据、实验）不同，推理过程并未实现版本控制。我们提出了 GitOfThoughts，它将智能体的推理树存储为 git 仓库：每个评分的思考都是一个提交，分数是备注，结果是标签，而检索则是对智能体自身历史的“git log”。这使得推理过程可重放、可审计，并且在几乎零工程成本下可以跨智能体进行合并。

接下来，我们探讨了一个更为复杂的问题：在任何基础上，记忆是否真的提高了准确性？在五种基础（无、markdown、向量、图、git）、两个基准、两个模型规模以及预注册的复现实验中，答案是针对新问题的“否”。没有任何记忆格式能可靠地提供帮助，甚至一个有前景的早期结果在其预注册复现中也崩溃了。记忆仅在我们称之为可复制阈值以上时才有所回报：当检索到的案例与当前问题的相似度约为 0.8 时，准确性急剧上升；而低于此阈值则无效。收益在于答案检索，而非方法转移：一个 4.5 倍大的模型可以将近似重复的收益翻倍，但仍然无法从已解决示例中提取可转移的方法。我们发现的唯一通用杠杆是测试时间采样。因此，使用 git 作为基础的理由在于审计性、来源和可合并性与准确性相当。我们记录了一项被撤回的结果和一个被驳斥的假设，以体现我们所遵循的评估标准。

博主点评： GitOfThoughts 提出了一种创新的方式来管理智能体的推理过程，利用版本控制来实现可审计和可重放的推理链。然而，记忆的有效性似乎受到限制，强调了在智能体学习中，数据的相似性与准确性之间的复杂关系。