NeFut Logo NeFut
EN 管理员登录

[AI学术] 动态声音源的时空音频语言建模新突破

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#AI #Machine Learning #Open Source

摘要

声音事件是具有语义身份、位置和轨迹的实体,但当前的音频语言模型通常将剪辑视为全局事件内容。相反,声音事件定位模型跟踪来源方向随时间的变化,但在语言推理方面提供的语义覆盖有限。为了解决这一差距,我们引入了 ST-AudioQA,这是一个基于第一阶音频(FOA)渲染的静态和移动声音源构建的时空音频问答数据集和基准。

每个场景提供了源身份、活动、方向、距离和运动元数据,从而实现密集的轨迹监督,并提出关于声音来源、位置、移动方式以及源之间关系的问题。我们进一步提出了 ST-Audio Encoder,这是一个时间分辨的 FOA 音频编码器,能够学习事件语义与源轨迹。

此外,ST-AudioLM 将编码器的音频标记连接到大语言模型(LLM),用于时空音频问答。实验表明,这种表示改善了语义与定位的权衡,并在推理性能上优于静态空间和定位导向的基准。

博主点评: ST-AudioQA 的提出为音频语言理解提供了新的视角,尤其是在动态声音源的处理上。结合 FOA 渲染和 LLM 的方法,展示了音频和语言模型之间的强关联,为未来的多模态学习奠定了基础。该研究不仅推动了音频处理的前沿,也为交互式智能系统的发展提供了新思路。

原文链接: https://arxiv.org/abs/2606.14141

[h] 返回首页