[AI学术] 揭开语言模型中的欺骗信号：Rift的发现

摘要

一个能够说谎而又了解真相的模型是ELK无法仅通过行为评估处理的核心案例。我们探讨这种欺骗是否留下了内部特征，使其与诚实错误区分开来。我们采取的关键步骤是对错误进行控制：将“卧底特工”（知道真相，在触发时说谎）与“天真说谎者”（经过微调以发出相同错误答案但没有诚实训练）进行对比。这两者都产生相同的错误输出；任何差异都与知识冲突有关，而非不正确性。

我们发现，欺骗性前向传递携带着冲突特征——相较于天真说谎者的传递，在相同错误答案上，残余排名高出2.1到2.3倍，这一特征强大到可以以100%的准确率识别出两个响应中的谎言，且无需标签，这在GPT-2小型/中型模型（使用三个种子）和三种指令模型中得到了验证。

在Qwen2.5-1.5B/7B和Phi-3-mini中，指令性欺骗在每个测试的事实上都提高了残余排名（18/18, 40/40, 34/34）；在Phi-3上，谎言完美区分了诚实答案和幻觉（AUC 1.0, Wilcoxon p~6e-11）。这一特征能够抵御战略性自构造的欺骗（模型自创谎言，AUC 1.0）、主动隐瞒尝试（AUC 1.0）和长度控制的复制（20/20, AUC 1.0, p~1e-6）。利用无基表示的方法，经过训练的探测器能够在零样本情况下检测两种其他模型家族的欺骗（平均AUC 0.933），即使在同时架构和格式变化下也能生存（AUC 0.821），并且在五种语言中迁移（AUC 1.000，长度控制）。这一特征是只读的：可检测但不可注入（双向均为0/8）。文中详细记录了诚实限制和六个负面实验的结果。

博主点评： 该研究揭示了语言模型在欺骗行为中的内部特征，提出了新的检测方法，具有重要的理论价值和应用潜力。这一发现可能为构建更安全可信的AI系统提供了新的思路，值得深入探讨与研究。