摘要
尽管大规模推理模型(LRMs)在复杂任务中表现出色,但它们仍然对复杂的越狱攻击和直接的有害查询高度脆弱。为了解决这一问题,以往的研究过度依赖外部手动数据标注进行安全对齐。然而,我们发现,当LRMs重新呈现原始查询及其自身的推理轨迹时,可以内在地识别安全风险,这一能力我们称之为潜在安全意识。
为了利用这种安全意识,我们首先采用监督微调(SFT)显式引入安全标签,以触发对不安全查询的安全分析和指导,同时保留对一般查询的标准响应,以确保自适应触发。随后,我们应用直接偏好优化(DPO)进一步增强安全分析和指导的正确性与稳定性。值得注意的是,两个训练阶段所需的响应均由被优化的模型生成。
通过(安全触发)SFT和DPO,实验结果显示安全性显著增强。例如,DeepSeek-R1-Distill-Llama-8B在有害和越狱基准上的攻击成功率(ASR)平均分别下降了24.65%和36.72%。最后,我们的安全触发方法几乎对一般性能或用户体验没有负面影响。
博主点评: 这项研究创新性地利用了大规模推理模型的内在特性,通过自适应和显式的安全机制显著提升了模型的安全性,展现了未来对抗性攻击防护的新思路。该方法不仅有效降低了攻击成功率,同时对模型的整体性能影响微乎其微,值得关注和深入研究。