[AI学术] 音频模型解释脆弱性调查：在不改变预测的情况下操控归因

摘要

本文探讨了音频深度伪造检测中后置解释方法的脆弱性。以往对解释操控的研究主要集中在使用标准 $L_p$ 度量的图像领域，而我们引入了一种心理声学框架，优化不可听的扰动，以解耦模型归因与最终分类。

我们在严格保持预测不变的约束下，评估了这一脆弱性在最先进架构中的表现。通过使用特定领域的感知音频质量度量以及解释一致性标准来评估操控成本，我们的框架表明，攻击者可以系统地扭曲自动化解释热图，同时保持预测的深度伪造标签。

完整代码可在此处获取：Audio-XAI GitHub

博主点评： 本文揭示了音频模型解释的潜在脆弱性，特别是在深度伪造检测领域。通过心理声学的视角，提出了新的操控方法，值得在相关领域深入研究与应用。此类研究不仅有助于提高模型的鲁棒性，也为音频处理的安全性提供了新的思路。