在流媒体安全检测中,流防护(stream guardrails)能够在生成完整响应之前进行令牌级安全检测。然而,这些机制常常做出过于保守的判断,错误地拦截那些敏感但安全的令牌,这种现象被称为过度拒绝(over-refusal)。由于缺乏完整的上下文,它们还无法检测到通过越狱(jailbreaking)隐含的有害内容。
为了解决这些问题,我们提出了FreoStream,这是一种新颖的流媒体防护框架。具体而言,FreoStream对LoRA模块进行微调,以在基础防护检测到不安全令牌时执行未来感知推理(Future-Aware Reasoning)。推理过程遵循“预测-推理-判断”(Future-Reason-Judge)范式:预测未来、推理完整上下文并给出最终判断。该设计通过整合未来信息,有效减少了过度拒绝的情况。
此外,我们引入了安全对齐优化(Safety-Aligned Optimization)模块,该模块从推理梯度中提取安全对齐成分,以更新基础防护模型,从而增强流媒体安全检测。针对各种安全基准的广泛实验表明,FreoStream在降低过度拒绝率和增强越狱防护方面,表现优于现有的流媒体防护机制。
博主点评: FreoStream通过未来感知推理有效解决了流媒体安全检测中的过度拒绝问题,展示了其在安全防护中的潜力。该框架的创新设计为流媒体技术的安全性提升提供了新的思路,值得关注和深入研究。