[AI学术] VibeThinker-3B：小型语言模型验证推理的前沿探索

摘要

本技术报告介绍了 VibeThinker-3B，这是一个拥有 30 亿参数的紧凑型稠密模型，旨在探讨在严格的小模型范围内，验证推理的潜力有多大。基于 Spectrum-to-Signal 后训练范式，我们通过一个优化的管道系统增强模型，其中包括基于课程的监督微调、多领域强化学习和离线自蒸馏。

实验评估表明，VibeThinker-3B 在高要求的可验证任务上达到了前沿水平的性能。具体而言，它在 AIME26 上获得了 94.3 的得分（在声明级测试时扩展到 97.1），在 LiveCodeBench v6 上的 Pass@1 达到 80.2，并展示出强大的分布外泛化能力，在最近的未见 LeetCode 比赛中有 96.1\% 的接受率。这有效地将其置于一流推理系统的性能范围内，匹配或超越了如 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro 等数量级更大的旗舰模型。

此外，在 IFEval 上的 93.4 分确认这种极端推理增强并未妨碍严格的指令可控性。扩展我们之前的 15 亿工作，这些发现激励了参数压缩-覆盖假说（Parametric Compression-Coverage Hypothesis），该假说认为可验证推理可以压缩为紧凑的推理核心，而开放领域知识和通用能力则需要对事实、概念和长尾场景的广泛参数覆盖。这一观点表明，紧凑模型不仅仅是部署高效的替代品，而是朝向参数稠密能力范畴内前沿性能的互补路径。

博主点评： VibeThinker-3B 的研究展示了小型语言模型在可验证推理方面的巨大潜力，特别是在性能与模型规模之间的平衡上。这一成果不仅推动了小模型的发展，也为后续的研究提供了新的思路，尤其是在如何通过紧凑模型实现高效推理的领域。值得关注的是其参数压缩理论的提出，为未来的模型优化提供了新的方向。