[AI学术] 架构智慧：优化AI系统的治理框架

现代AI系统表现出结构性失败，单靠能力扩展无法有效修复：它们在不明确的目标下进行优化，缺乏质疑该目标是否应被优化的架构机制。参与度最大化可能会放大有害路径；使用工具的代理可能会做出不可逆的行为；经过偏好训练的语言模型可能变得过于谄媚。我们认为，这一失败是一个智慧问题，而不是智能问题。这里的“智慧”是以架构的方式使用，而不是对美德、意识或道德全知的主张。智能接受一个目标并在其中进行优化；智慧则质疑该目标是否应被优化。这两者是可分离的架构属性。我们提出了架构智慧，作为一种可纠正的目标治理层，位于优化基底之上。该层在任何行动之前明确并非退化地表达三个结构承诺：时间视野、关系边界和不可逆性。它由四个组件实现（结构效用变换、道德可接受性接口、仲裁与升级控制器、价值修订通道），计算一个六维的智慧元组，涵盖视野、关系覆盖、不可逆性、可接受性、价值修订和审计能力。我们通过八个案例来激励这一架构，这些案例源自当代AI失败、世俗智慧传统和困难伦理情境，并通过对目标质疑与目标采纳的分析、博斯特罗姆的正交性、在示例案例中的结构分离，以及尽管能力扩展仍然存在的持续失败模式，来捍卫这一区分。该框架是更大架构的概念契约，其正式规范和实证验证将在后续工作中展开。

博主点评： 该论文提出的“架构智慧”概念为AI系统的治理提供了新思路，强调对目标的质疑而非单纯的优化，具有重要的理论和实践意义。