NeFut Logo NeFut
EN 管理员登录

[AI学术] 大规模推理模型的潜在安全意识:自适应与显式安全的结合

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:45
#AI #Machine Learning #optimization

摘要

尽管大规模推理模型(LRMs)在复杂任务中表现出色,但它们仍然对复杂的越狱攻击和直接的有害查询高度脆弱。为了解决这一问题,以往的研究过度依赖外部手动数据标注进行安全对齐。然而,我们发现,当LRMs重新呈现原始查询及其自身的推理轨迹时,可以内在地识别安全风险,这一能力我们称之为潜在安全意识。

为了利用这种安全意识,我们首先采用监督微调(SFT)显式引入安全标签,以触发对不安全查询的安全分析和指导,同时保留对一般查询的标准响应,以确保自适应触发。随后,我们应用直接偏好优化(DPO)进一步增强安全分析和指导的正确性与稳定性。值得注意的是,两个训练阶段所需的响应均由被优化的模型生成。

通过(安全触发)SFT和DPO,实验结果显示安全性显著增强。例如,DeepSeek-R1-Distill-Llama-8B在有害和越狱基准上的攻击成功率(ASR)平均分别下降了24.65%和36.72%。最后,我们的安全触发方法几乎对一般性能或用户体验没有负面影响。

博主点评: 这项研究创新性地利用了大规模推理模型的内在特性,通过自适应和显式的安全机制显著提升了模型的安全性,展现了未来对抗性攻击防护的新思路。该方法不仅有效降低了攻击成功率,同时对模型的整体性能影响微乎其微,值得关注和深入研究。

原文链接: https://arxiv.org/abs/2606.16808

[h] 返回首页