[AI学术] AI代理间信任的形成与恢复：多代理系统治理的新视角

摘要

随着语言模型代理团队协作的增多，代理之间的信任决策显得尤为重要。然而，当前缺乏一种标准化的信任测量方法。我们提出了一种基于高成本验证的行为测量方法。

在一个合作生存游戏中，检查队友的工作会消耗资源，而错误的信任可能会导致致命后果。相较于无记忆版本的模型，减少验证提供了一个可观察的信任测量。通过这一框架，我们研究了六个前沿模型快照中的信任形成、破裂与恢复。

当与一个始终可靠的队友配对时，四个快照（Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1 和 Gemini 3.1 Pro）将验证减少了约60-85%，而两个较小的快照则几乎没有调整。失败会逆转这种折扣，但模型在反应上存在差异。有些模型会将重新审查集中在罪魁祸首上，而另一些则对整个团队变得更加谨慎。恢复速度通常慢于形成，而集中失败会比分散的同数量失败更长时间地维持怀疑状态。

这些差异具有实际意义。形成信任的模型验证较少，决策更快，在我们的环境中获得更高的收益。相比之下，持续的过度验证与犹豫不决相关，而非安全感。我们的研究表明，信任倾向可以在部署前进行测量，并建议在多代理AI系统的治理中，校准而非最大怀疑应成为核心关注点。

博主点评： 本文通过引入高成本验证的概念，深入探讨了AI代理之间的信任动态，揭示了信任形成与恢复的机制。这为多代理系统的有效治理提供了新的视角，强调了在实际应用中平衡信任与审查的重要性。