摘要
听觉注意力解码(AAD)旨在从多扬声器声学环境中的神经反应中推断被关注的说话者,是神经驱动听力系统的关键问题。尽管近期研究取得了令人鼓舞的进展,现有的AAD模型仍未充分利用频域脑电图(EEG)信息。大多数方法通过手工特征提取或直接的跨频带特征连接引入多频带信息,这主要在浅层次上利用频率信息,并可能忽视特定频带模式和跨频带交互。
为了解决这些局限性,本文提出了FAConformer,这是一种频率感知的CNN-Transformer框架,专门用于AAD,明确集成了特定频带编码和自适应跨频带交互。FAConformer首先将EEG信号分解为多个频率带,并为每个频带分配一个独立的CNN-Transformer编码器进行特定频带建模。随后,经过精心设计的频率感知注意力(FAA)模块适应性地融合了这些频带特征,通过将频带特征视为令牌来建模跨频带依赖关系。此外,引入了频带辅助监督(BAS),以防止在联合训练过程中弱贡献分支被低估。通过这种方式,FAConformer实现了频率感知建模,更有效地利用频域信息。
在两个公共AAD数据集上进行了广泛的实验,使用了三种决策窗口长度,结果表明FAConformer始终优于12个竞争基线,超越当前最先进的模型4.9%。对频带重要性、消融和参数敏感性的进一步分析验证了所提框架的有效性、鲁棒性和可解释性。
代码可在GitHub获取。
博主点评: FAConformer通过频率感知机制和自适应交互,显著提升了听觉注意力解码的效果。这一创新方法不仅改善了模型对频域信息的利用,还增强了对不同频带特征的建模能力,为未来的神经听力系统提供了新的思路。