[AI学术] 当错误变成叙事：LLM代理运行时沉默故障的纵向分类

摘要

LLM代理系统日益作为长期自主运行的系统存在：调度任务、调用工具、维护记忆并向用户推送结果。我们进行了一项纵向研究，探讨了一个持续生产的个人助理代理运行时中的沉默故障，该系统自2026年3月以来运行，涉及约40个调度任务、8个LLM提供者、一个工具治理代理和一个知识库记忆平面，经过4286个单元测试和827个治理检查的防护。经过八周的观察，我们记录了22起事件，并进行了完整的根本原因分析，其中一种元模式——一种错误信号从未以可操作形式到达用户的故障——至少出现了28次。

我们推导出一个五类的机制导向分类法：

环境和平台特性 (A)
设计假设不匹配 (B)
错误吞噬和稀释 (C)
链式幻觉和制造 (D)
操作遗漏和法医盲点 (E)

类D是LLM系统特有且最危险的：系统不仅未能报告错误，还将其转化为流畅且令人信服的叙事，呈现给用户。我们称之为“可失败的可信性”：灰色故障的差异可观察性加剧——观察者不仅失明，还被故障本身说谎。

三项发现：约70%的沉默故障是通过用户观察而非测试或审计捕获的；对15起事件的回顾性审计发现0%的事前预防，但87%的回归阻止——审计是回归引擎，而非预测引擎；事件延迟（13小时至60天）跟踪故障机制，而非代码复杂性——最长寿的故障发生在组件之间的缝隙中，那里没有测试运行。

我们描述了由此产生的防御框架，并提炼出设计原则，以确保代理系统的故障是响亮的、可归因的和无聊的。所有的事后分析和文档都是公开的。

博主点评： 本文深入剖析了LLM代理系统中的沉默故障问题，揭示了其复杂性和潜在风险。特别是类D故障的出现，强调了对用户的误导性叙述可能造成的严重后果，为未来的系统设计提供了重要的警示。通过建立有效的审计机制和防御框架，能够显著提升系统的可靠性与透明度。