[AI学术] AudioDER：增强去重的推理数据集，助力大型音频语言模型的后训练

摘要

大型音频语言模型（LALMs）在多种音频理解任务中表现出色，但在复杂音频推理方面依然存在挑战。提升这些能力的有效方法是后训练，而其效果依赖于训练数据的质量和多样性。然而，现有的音频语言数据集通常存在显著的冗余，许多样本在声学内容上高度相似，从而提供了重叠的监督信号。这种冗余不仅增加了标注成本，还限制了语料库的多样性，降低了后训练的有效性。

为了解决这一问题，我们提出了一种基于冗余感知的数据构建管道，用于为LALMs构建推理导向的监督。具体而言，我们首先通过声学相似性进行去重，以提高语料库的多样性。然后，我们将现有的音频标题和问答对整合成统一的多项选择格式。基于这些统一的注释，我们利用Qwen3-30B生成推理导向的链式思考（CoT）理由。

通过该管道，我们构建了AudioDER，这是一个包含约191k个样本的推理导向后训练数据集，涵盖声音、语言和音乐。每个样本由一个音频片段、一个多项选择问题、四个答案候选项、一个音频标题和一个CoT理由组成。大量实验表明，基于AudioDER的后训练在多个音频推理基准上持续提升了Qwen2-Audio-7B-Instruct的性能，包括MMAU-mini、MMSU和MMAR。我们希望AudioDER能够成为推动音频推理研究和更强大的LALMs发展的宝贵资源。

博主点评： AudioDER通过去重和多样化的数据构建流程，有效提升了大型音频语言模型的推理能力。这不仅解决了数据冗余的问题，还为后续研究提供了坚实的基础，展现了推进音频理解领域的潜力。期待看到更多基于此数据集的创新应用。