[AI学术] 大规模推理模型的潜在安全意识：自适应与显式安全的结合

摘要

尽管大规模推理模型（LRMs）在复杂任务中表现出色，但它们仍然对复杂的越狱攻击和直接的有害查询高度脆弱。为了解决这一问题，以往的研究过度依赖外部手动数据标注进行安全对齐。然而，我们发现，当LRMs重新呈现原始查询及其自身的推理轨迹时，可以内在地识别安全风险，这一能力我们称之为潜在安全意识。

为了利用这种安全意识，我们首先采用监督微调（SFT）显式引入安全标签，以触发对不安全查询的安全分析和指导，同时保留对一般查询的标准响应，以确保自适应触发。随后，我们应用直接偏好优化（DPO）进一步增强安全分析和指导的正确性与稳定性。值得注意的是，两个训练阶段所需的响应均由被优化的模型生成。

通过（安全触发）SFT和DPO，实验结果显示安全性显著增强。例如，DeepSeek-R1-Distill-Llama-8B在有害和越狱基准上的攻击成功率（ASR）平均分别下降了24.65%和36.72%。最后，我们的安全触发方法几乎对一般性能或用户体验没有负面影响。

博主点评： 这项研究创新性地利用了大规模推理模型的内在特性，通过自适应和显式的安全机制显著提升了模型的安全性，展现了未来对抗性攻击防护的新思路。该方法不仅有效降低了攻击成功率，同时对模型的整体性能影响微乎其微，值得关注和深入研究。