[AI学术] 代理信任的条件性：在代理群体中如何有效管理技能声誉

摘要

随着开放平台越来越多地在异构 LLM 代理之间分配任务，这些代理在基础模型、支架和工具栈上存在显著差异，其能力因技能而异：在某一技能上表现优秀的代理在另一技能上可能毫无用处。传统的声誉方法通过一个全局信任评分来总结每个代理，但这个标量在此场景中并不合适，因为将所有任务路由给全局最信任的代理会导致专业化的价值被忽视。

我们研究了技能条件信任 $R(i | k)$——即对代理 $i$ 在需要技能 $k$ 的任务中应给予的信任，而不是每个代理一个评分，并提出三个可证伪的问题：何时条件化是值得的，应该借用多少跨技能证据，以及这种借用是否安全。通过受控的相图分析，我们回答了前两个问题：条件信任仅在特定条件下获胜——即高代理异质性、稀疏的每技能证据和技能相关性，而购买这种数据效率的耦合强度 $\eta$ 是双重用途的，因为相同的跨技能借用也是一个洗钱渠道。

在一个包含 14 个真正异构的 AppWorld 代理的公共基准测试上，真实池落在有利的区域内——尽管增益微小，但在不同技能之间最佳代理确实发生了变化。我们还展示了一个攻击者在某一技能上拥有廉价证据而在目标技能上没有证据的情况下，如何劫持条件路由器，使路由遗憾从 0 上升至 0.94，而其污染的无门槛信任判决读取为 -0.06，而诚实的评分应为 +0.19。零证据门限虽然可以限制攻击，但并不能消除它；我们在一个明确的预算下量化了剩余成本。我们并不声称具备 Sybil 抵抗能力，而是量化了这种权衡的代价。

博主点评： 本文深入探讨了在多代理系统中如何有效管理信任与声誉，尤其是在技能异质性显著的情况下，提出的条件信任模型为优化任务分配提供了新的视角。然而，攻击者的潜在威胁也提醒我们，如何保障系统的安全性依然是一个重要挑战。整体而言，研究为未来的 LLM 应用提供了重要的理论支持与实践参考。