摘要
现有研究表明,当前的后门防御措施在稳健性上表现有限,常常无法抵御特定类型的攻击。更令人担忧的是,现行的安全调优策略仅提供表面的安全保护,未能彻底消除后门效应。
在本研究中,我们提出了一种新的后门学习和遗忘的形式化方法,将其视为一个持续学习的三阶段过程。在这一框架下,我们正式定义了完全的后门遗忘,并进一步推导出基于灾难性遗忘机制实现这一目标的必要条件。
基于这些见解,我们提出了盲反演后门对抗性遗忘(Blind Inversion-Backdoor Adversarial Unlearning,BI-BAU),该方法将生成满足遗忘条件的对抗样本的过程形式化为一个盲反演问题。我们通过将对抗训练的双层优化过程整合到期望最大化(Expectation-Maximization, EM)算法框架中,来优化最大后验(MAP)目标。
此外,BI-BAU 被扩展到未知目标类别的无目标对抗场景,以及多模态对比学习任务,提高了其在现实世界部署场景中的适用性,尤其是在预训练模型可能受到攻击的情况下。广泛的实验表明,我们的方法在多种后门攻击中具有普遍适用性,能够有效且彻底地消除后门模型中的后门效应。
博主点评: 本研究通过将后门遗忘与持续学习相结合,提供了一种全新的视角和方法,尤其是在对抗性训练和优化算法的整合方面,具有重要的理论意义和实际应用前景。BI-BAU 的提出,显著推动了后门防御研究的进展,值得关注。