摘要
LLM代理在工具选择上常常出错,通常认为是模型在拥挤的工具库中未能找到正确的工具。然而,我们通过一个被忽视的视角进行了研究:模型对标记工具定义段的注意力。我们分析了真实的BFCL失误案例,通过每个候选工具的注意力最大值来评估,发现模型在80%的时候关注到了正确的工具(相较于21%的随机选择概率),而对于金标准工具的关注度仅为10%:这表明模型能够看到正确的工具,但仍然做出错误选择。这直接驳斥了“拥挤工具库/迷失其中”的直观解释:失败发生在决策输出阶段,而非工具库。我们通过三种方式进一步确认了这一点:(1)输入与输出:修正提示(重新排序或复制金标准工具)能够恢复模型的选择能力。