[AI学术] 揭示音频模型的黑箱：基于熵引导的可解释性方法

摘要

基于变换器的自动语音识别（ASR）模型如 Whisper 具有很高的准确性，但其预测结果仍难以解释。现有的可解释人工智能（XAI）方法往往缺乏真实感和精确的时间定位。我们提出了一种名为 LEAF-X 的模型内在 XAI 框架，即利用熵引导的注意力进行真实可解释性。LEAF-X 结合了熵引导的注意力加权、多层注意力展开和可选的因果消融，以识别低熵、高影响力的头部和层，从而生成稀疏的 token 到帧的归因。

与基于扰动的解释器或原始注意力图不同，LEAF-X 利用编码器-解码器和增强语音的解码器模型的内部结构，生成更能反映模型计算的解释。实验结果显示，LEAF-X 在真实感上提升了 32%，在局部性/稀疏性上增强了 35-39%，并且提供了最稳定的归因，从而支持了更透明和可审计的 ASR。

博主点评： LEAF-X 的提出不仅推动了自动语音识别领域的可解释性研究进展，还通过熵引导的机制为模型的透明性提供了新的视角。这种方法在实际应用中可能显著提高用户对模型决策的信任度，值得进一步探索和优化。