NeFut Logo NeFut
EN 管理员登录

[AI学术] ToolMenuBench:提升LLM代理工具菜单过滤策略的基准测试

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#AI #Machine Learning #Open Source

摘要

工具增强的大型语言模型代理越来越多地在庞大的工具库上运行,但现有的评估往往关注模型是否能够正确调用工具,而不是可见工具菜单如何影响可靠性、效率和安全风险暴露。

我们引入了ToolMenuBench,这是一种用于评估多步骤LLM代理的工具菜单构建的基准测试。ToolMenuBench在工具菜单大小、干扰物类型、状态依赖任务结构和风险暴露方面进行了变化,并报告了过滤级别和下游代理指标,包括可见工具数量、风险工具暴露、任务成功率、错误工具调用、过早行动和令牌使用量。

在对七个模型后端、三种工具菜单大小、六种过滤方法和七种评估设置的控制评估中,CMTF将任务成功率从32.1%(在所有工具暴露下)提升至85.7%,同时将平均令牌使用量减少了约98%。因果最小工具过滤在整体权衡中表现最佳,相比未过滤暴露、词汇过滤、状态感知过滤和更广泛的因果路径基准,减少了可见工具、错误工具调用、过早行动和风险工具暴露。

ToolMenuBench提供了一个可重用的评估框架,用于研究代理-界面问题:哪些工具应该可见,它们在何时可见,以及在什么成本或风险约束下可见。

博主点评: ToolMenuBench的推出为LLM代理的工具选择与过滤提供了一个系统化的评估框架,显著提升了任务成功率并降低了资源消耗,展示了工具菜单设计在智能体效率中的关键作用。通过这种方法,未来的LLM代理能够更可靠、更安全地执行任务。

原文链接: https://arxiv.org/abs/2606.15508

[h] 返回首页