[AI学术] ToolMenuBench：提升LLM代理工具菜单过滤策略的基准测试

摘要

工具增强的大型语言模型代理越来越多地在庞大的工具库上运行，但现有的评估往往关注模型是否能够正确调用工具，而不是可见工具菜单如何影响可靠性、效率和安全风险暴露。

我们引入了ToolMenuBench，这是一种用于评估多步骤LLM代理的工具菜单构建的基准测试。ToolMenuBench在工具菜单大小、干扰物类型、状态依赖任务结构和风险暴露方面进行了变化，并报告了过滤级别和下游代理指标，包括可见工具数量、风险工具暴露、任务成功率、错误工具调用、过早行动和令牌使用量。

在对七个模型后端、三种工具菜单大小、六种过滤方法和七种评估设置的控制评估中，CMTF将任务成功率从32.1%（在所有工具暴露下）提升至85.7%，同时将平均令牌使用量减少了约98%。因果最小工具过滤在整体权衡中表现最佳，相比未过滤暴露、词汇过滤、状态感知过滤和更广泛的因果路径基准，减少了可见工具、错误工具调用、过早行动和风险工具暴露。

ToolMenuBench提供了一个可重用的评估框架，用于研究代理-界面问题：哪些工具应该可见，它们在何时可见，以及在什么成本或风险约束下可见。

博主点评： ToolMenuBench的推出为LLM代理的工具选择与过滤提供了一个系统化的评估框架，显著提升了任务成功率并降低了资源消耗，展示了工具菜单设计在智能体效率中的关键作用。通过这种方法，未来的LLM代理能够更可靠、更安全地执行任务。