[AI学术] GIST-CMTF：大规模语言模型代理的因果最小工具过滤中的目标状态推断

摘要

工具增强的大规模语言模型（LLM）代理依赖于运行时过滤来决定每一步应可见的工具。因果最小工具过滤（CMTF）通过仅暴露下一个因果必要的工具前沿来减少工具选择混淆，但它假设用户请求已经映射到一个符号目标状态。实际上，像“处理我的预约”或“处理这个电子邮件”这样的请求可能对应多个潜在目标。这会导致错误目标执行，代理遵循有效的因果工具路径却针对错误的目标。

我们引入了GIST-CMTF，一种目标状态推断层，它在CMTF使用的相同状态转移词汇上预测候选符号目标，评估模糊性，并选择应用CMTF或暴露澄清作为因果行动，以生成缺失的目标或状态变量。我们对GIST-CMTF进行了评估，涵盖七个模型后端、六种过滤方法和120个受控工具使用任务。GIST-CMTF在任务成功率上达到了97.0%，而顶级目标CMTF为80.1%，语义目标CMTF为82.9%。它将错误目标执行率从顶级目标CMTF的19.4%降低到2.5%，同时保持因果过滤的一工具暴露，并使用的token数量远少于所有工具暴露。这些结果表明，可靠的工具增强代理应该在暴露外部行动之前验证目标状态，而不仅仅是工具的相关性。

博主点评： GIST-CMTF的提出为工具增强的LLM代理提供了更为精确的目标推断机制，有效减少了错误目标执行的概率，展示了在复杂用户请求下的潜力。该方法在多个模型和任务中的出色表现，预示着未来智能代理的发展方向，强调了目标状态验证的重要性。