现代AI系统表现出结构性失败,单靠能力扩展无法有效修复:它们在不明确的目标下进行优化,缺乏质疑该目标是否应被优化的架构机制。参与度最大化可能会放大有害路径;使用工具的代理可能会做出不可逆的行为;经过偏好训练的语言模型可能变得过于谄媚。我们认为,这一失败是一个智慧问题,而不是智能问题。这里的“智慧”是以架构的方式使用,而不是对美德、意识或道德全知的主张。智能接受一个目标并在其中进行优化;智慧则质疑该目标是否应被优化。这两者是可分离的架构属性。我们提出了架构智慧,作为一种可纠正的目标治理层,位于优化基底之上。该层在任何行动之前明确并非退化地表达三个结构承诺:时间视野、关系边界和不可逆性。它由四个组件实现(结构效用变换、道德可接受性接口、仲裁与升级控制器、价值修订通道),计算一个六维的智慧元组,涵盖视野、关系覆盖、不可逆性、可接受性、价值修订和审计能力。我们通过八个案例来激励这一架构,这些案例源自当代AI失败、世俗智慧传统和困难伦理情境,并通过对目标质疑与目标采纳的分析、博斯特罗姆的正交性、在示例案例中的结构分离,以及尽管能力扩展仍然存在的持续失败模式,来捍卫这一区分。该框架是更大架构的概念契约,其正式规范和实证验证将在后续工作中展开。
博主点评: 该论文提出的“架构智慧”概念为AI系统的治理提供了新思路,强调对目标的质疑而非单纯的优化,具有重要的理论和实践意义。