NeFut Logo NeFut
EN 管理员登录

[AI学术] 企业代理路由的扩展挑战:退化、诊断与恢复

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:49
#algorithm #AI #Machine Learning

在生产环境中,LLM助手负责将用户请求路由到不断增长的专业工具库,但当目录规模扩大时,路由的准确性如何退化?我们研究了一个包含110个代理和584个工具的目录,评估了从10到110个代理的三种前沿模型。

在不充分指定的请求中,路由F1分数在模型间下降了16到23个百分点。通过oracle分析,我们将退化分解为\emph{检索}差距(模型无法找到合适的工具)和\emph{混淆}差距(即使检索完美,oracle上限也下降了10个百分点)。

基于嵌入的短名单策略在所有三种模型和两个提供商中恢复了+10到11个百分点的F1分数。在一项生产注释研究中(1,435个人工标记的表达,三名注释员),确认在真实流量中恢复了+10到17个百分点,尽管绝对性能下降了10到15个百分点。

博主点评: 本文深入分析了在扩大代理数量时路由准确性下降的原因,并提出了有效的恢复策略。通过精确的模型评估和实际应用验证,显示嵌入方法有效提升了性能,为企业级应用提供了重要参考。

原文链接: https://arxiv.org/abs/2606.17519

[h] 返回首页