随着大语言模型(LLMs)推理能力的增强,欺骗行为成为一个日益严重的安全隐患。现有的欺骗监测器通常只对可见的文本进行评分,或从表示向量中导出标量探测分数,因此关于响应为何可疑的可检验证据非常少。为此,我们引入了 STATEWITNESS,一个用于欺骗审计的激活解释器。该解释器通过一个单独的解码器读取目标模型的隐藏状态,进而回答自然语言查询或生成结构化报告。
我们在两个目标推理 LLM 上,针对七个欺骗数据集评估了 STATEWITNESS 的性能。结果显示,STATEWITNESS 达到了 0.916 的平均 AUROC,相比最佳的黑箱文本监测器提高了 11.6%,并且在相同评估协议下,相比最佳的激活探测基线提高了 25.0%。当与现有监测器结合使用时,STATEWITNESS 能够减少简单阈值集成中的漏检欺骗示例。
除了标量检测外,该解码器还返回查询级别的答案、模式报告,以及供人类检查的 token 或句子级别的证据轨迹。我们认为这个接口可以作为更广泛的可解释性和对齐工具的潜在基础。
博主点评: STATEWITNESS 的提出为 LLM 的欺骗检测提供了更为丰富的解释性,尤其是在传统方法难以提供直观证据的情况下。通过将解码器与现有监测工具结合,研究者们将有望提升模型的安全性与可解释性,为未来的 AI 应用提供更强的保障。