[AI学术] 动态声音源的时空音频语言建模新突破

摘要

声音事件是具有语义身份、位置和轨迹的实体，但当前的音频语言模型通常将剪辑视为全局事件内容。相反，声音事件定位模型跟踪来源方向随时间的变化，但在语言推理方面提供的语义覆盖有限。为了解决这一差距，我们引入了 ST-AudioQA，这是一个基于第一阶音频（FOA）渲染的静态和移动声音源构建的时空音频问答数据集和基准。

每个场景提供了源身份、活动、方向、距离和运动元数据，从而实现密集的轨迹监督，并提出关于声音来源、位置、移动方式以及源之间关系的问题。我们进一步提出了 ST-Audio Encoder，这是一个时间分辨的 FOA 音频编码器，能够学习事件语义与源轨迹。

此外，ST-AudioLM 将编码器的音频标记连接到大语言模型（LLM），用于时空音频问答。实验表明，这种表示改善了语义与定位的权衡，并在推理性能上优于静态空间和定位导向的基准。

博主点评： ST-AudioQA 的提出为音频语言理解提供了新的视角，尤其是在动态声音源的处理上。结合 FOA 渲染和 LLM 的方法，展示了音频和语言模型之间的强关联，为未来的多模态学习奠定了基础。该研究不仅推动了音频处理的前沿，也为交互式智能系统的发展提供了新思路。