NeFut Logo NeFut
EN 管理员登录

[AI学术] VibeThinker-3B:小型语言模型验证推理的前沿探索

发布于:2026-06-17 22:00
#algorithm #AI #Machine Learning

摘要

本技术报告介绍了 VibeThinker-3B,这是一个拥有 30 亿参数的紧凑型稠密模型,旨在探讨在严格的小模型范围内,验证推理的潜力有多大。基于 Spectrum-to-Signal 后训练范式,我们通过一个优化的管道系统增强模型,其中包括基于课程的监督微调、多领域强化学习和离线自蒸馏。

实验评估表明,VibeThinker-3B 在高要求的可验证任务上达到了前沿水平的性能。具体而言,它在 AIME26 上获得了 94.3 的得分(在声明级测试时扩展到 97.1),在 LiveCodeBench v6 上的 Pass@1 达到 80.2,并展示出强大的分布外泛化能力,在最近的未见 LeetCode 比赛中有 96.1\% 的接受率。这有效地将其置于一流推理系统的性能范围内,匹配或超越了如 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro 等数量级更大的旗舰模型。

此外,在 IFEval 上的 93.4 分确认这种极端推理增强并未妨碍严格的指令可控性。扩展我们之前的 15 亿工作,这些发现激励了参数压缩-覆盖假说(Parametric Compression-Coverage Hypothesis),该假说认为可验证推理可以压缩为紧凑的推理核心,而开放领域知识和通用能力则需要对事实、概念和长尾场景的广泛参数覆盖。这一观点表明,紧凑模型不仅仅是部署高效的替代品,而是朝向参数稠密能力范畴内前沿性能的互补路径。

博主点评: VibeThinker-3B 的研究展示了小型语言模型在可验证推理方面的巨大潜力,特别是在性能与模型规模之间的平衡上。这一成果不仅推动了小模型的发展,也为后续的研究提供了新的思路,尤其是在如何通过紧凑模型实现高效推理的领域。值得关注的是其参数压缩理论的提出,为未来的模型优化提供了新的方向。

原文链接: https://arxiv.org/abs/2606.16140

[h] 返回首页