摘要
大型音频语言模型(LALMs)在多种音频理解任务中表现出色,但在复杂音频推理方面依然存在挑战。提升这些能力的有效方法是后训练,而其效果依赖于训练数据的质量和多样性。然而,现有的音频语言数据集通常存在显著的冗余,许多样本在声学内容上高度相似,从而提供了重叠的监督信号。这种冗余不仅增加了标注成本,还限制了语料库的多样性,降低了后训练的有效性。
为了解决这一问题,我们提出了一种基于冗余感知的数据构建管道,用于为LALMs构建推理导向的监督。具体而言,我们首先通过声学相似性进行去重,以提高语料库的多样性。然后,我们将现有的音频标题和问答对整合成统一的多项选择格式。基于这些统一的注释,我们利用Qwen3-30B生成推理导向的链式思考(CoT)理由。
通过该管道,我们构建了AudioDER,这是一个包含约191k个样本的推理导向后训练数据集,涵盖声音、语言和音乐。每个样本由一个音频片段、一个多项选择问题、四个答案候选项、一个音频标题和一个CoT理由组成。大量实验表明,基于AudioDER的后训练在多个音频推理基准上持续提升了Qwen2-Audio-7B-Instruct的性能,包括MMAU-mini、MMSU和MMAR。我们希望AudioDER能够成为推动音频推理研究和更强大的LALMs发展的宝贵资源。
博主点评: AudioDER通过去重和多样化的数据构建流程,有效提升了大型音频语言模型的推理能力。这不仅解决了数据冗余的问题,还为后续研究提供了坚实的基础,展现了推进音频理解领域的潜力。期待看到更多基于此数据集的创新应用。