NeFut Logo NeFut
EN 管理员登录

[AI学术] AI代理间信任的形成与恢复:多代理系统治理的新视角

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#algorithm #AI #Machine Learning

摘要

随着语言模型代理团队协作的增多,代理之间的信任决策显得尤为重要。然而,当前缺乏一种标准化的信任测量方法。我们提出了一种基于高成本验证的行为测量方法。

在一个合作生存游戏中,检查队友的工作会消耗资源,而错误的信任可能会导致致命后果。相较于无记忆版本的模型,减少验证提供了一个可观察的信任测量。通过这一框架,我们研究了六个前沿模型快照中的信任形成、破裂与恢复。

当与一个始终可靠的队友配对时,四个快照(Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1 和 Gemini 3.1 Pro)将验证减少了约60-85%,而两个较小的快照则几乎没有调整。失败会逆转这种折扣,但模型在反应上存在差异。有些模型会将重新审查集中在罪魁祸首上,而另一些则对整个团队变得更加谨慎。恢复速度通常慢于形成,而集中失败会比分散的同数量失败更长时间地维持怀疑状态。

这些差异具有实际意义。形成信任的模型验证较少,决策更快,在我们的环境中获得更高的收益。相比之下,持续的过度验证与犹豫不决相关,而非安全感。我们的研究表明,信任倾向可以在部署前进行测量,并建议在多代理AI系统的治理中,校准而非最大怀疑应成为核心关注点。

博主点评: 本文通过引入高成本验证的概念,深入探讨了AI代理之间的信任动态,揭示了信任形成与恢复的机制。这为多代理系统的有效治理提供了新的视角,强调了在实际应用中平衡信任与审查的重要性。

原文链接: https://arxiv.org/abs/2606.14923

[h] 返回首页