[AI学术] 能力最小化：风险感知因果门控的安全原理

现代决策系统越来越依赖于学习组件，这些组件的输出可能自信但错误，从而使后续操作面临昂贵的错误。我们提出了风险感知因果门控（RACG），这是一个通过结合因果效应估计与校准风险控制来决定是否基于模型预测采取行动、推迟或放弃的框架。

RACG对候选行动到结果的因果路径进行建模，并根据估计的反事实风险而非原始预测信心来控制每个决策。为了使门控可靠，我们推导了在高风险条件下采取行动的概率的分布无关界限，并展示了这些界限如何转化为满足用户指定安全约束的操作阈值。

我们进一步提出了一种自适应门控策略，通过监测预测与实现结果之间的差异来调整以应对分布变化，并在因果假设出现违反时收紧门控。在模拟干预和真实世界决策基准测试中，RACG显著减少了高成本错误，同时保留了大部分未门控策略的效用，并且在匹配放弃率的情况下优于基于信心和选择性预测的基线。

我们的结果表明，明确将因果风险与预测不确定性分离，可以产生既安全又透明的决策系统，为高风险环境中的可信自动化提供了一种原理机制。

博主点评： 本文提出的风险感知因果门控（RACG）为高风险决策提供了一种新颖且有效的机制，通过精确控制因果风险，显著提升了决策的安全性与透明度，具有广泛的应用前景。尤其是在自动化系统日益普及的背景下，该方法的实用性和可靠性愈发重要。