NeFut Logo NeFut
EN 管理员登录

[AI学术] 揭示音频模型的黑箱:基于熵引导的可解释性方法

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#AI #Explainable AI #ASR

摘要

基于变换器的自动语音识别(ASR)模型如 Whisper 具有很高的准确性,但其预测结果仍难以解释。现有的可解释人工智能(XAI)方法往往缺乏真实感和精确的时间定位。我们提出了一种名为 LEAF-X 的模型内在 XAI 框架,即利用熵引导的注意力进行真实可解释性。LEAF-X 结合了熵引导的注意力加权、多层注意力展开和可选的因果消融,以识别低熵、高影响力的头部和层,从而生成稀疏的 token 到帧的归因。

与基于扰动的解释器或原始注意力图不同,LEAF-X 利用编码器-解码器和增强语音的解码器模型的内部结构,生成更能反映模型计算的解释。实验结果显示,LEAF-X 在真实感上提升了 32%,在局部性/稀疏性上增强了 35-39%,并且提供了最稳定的归因,从而支持了更透明和可审计的 ASR。

博主点评: LEAF-X 的提出不仅推动了自动语音识别领域的可解释性研究进展,还通过熵引导的机制为模型的透明性提供了新的视角。这种方法在实际应用中可能显著提高用户对模型决策的信任度,值得进一步探索和优化。

原文链接: https://arxiv.org/abs/2606.14647

[h] 返回首页