[AI学术] 揭示LLM代理工具选择失误的真相：注意力与分段的角度

摘要

LLM代理在工具选择上常常出错，通常认为是模型在拥挤的工具库中未能找到正确的工具。然而，我们通过一个被忽视的视角进行了研究：模型对标记工具定义段的注意力。我们分析了真实的BFCL失误案例，通过每个候选工具的注意力最大值来评估，发现模型在80%的时候关注到了正确的工具（相较于21%的随机选择概率），而对于金标准工具的关注度仅为10%：这表明模型能够看到正确的工具，但仍然做出错误选择。这直接驳斥了“拥挤工具库/迷失其中”的直观解释：失败发生在决策输出阶段，而非工具库。我们通过三种方式进一步确认了这一点：（1）输入与输出：修正提示（重新排序或复制金标准工具）能够恢复模型的选择能力。