NeFut Logo NeFut
EN 管理员登录

[AI学术] 推理计算如何塑造前沿大型语言模型的评估

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:47
#algorithm #AI #Machine Learning

在人工智能评估中,任务难度逐渐增加,尤其是在涉及工具使用和迭代问题解决的情况下。因此,模型的性能对测试时可用的计算资源(“推理计算”)的数量和分配变得越来越敏感。然而,许多评估仍然在单一限制预算下报告性能,这意味着低分可能反映评估设置而非模型的实际能力。为此,我们在七个挑战性基准上评估了多达12个前沿语言模型,这些基准涵盖软件工程、数学、医学和网络安全等领域。

我们采用了一个受控设置,结合了三种简单的推理扩展干预措施:更大的令牌预算、上下文压缩和重复提交尝试,这些尝试由模型本身或最小的正确性反馈引导。我们的研究发现了三项主要结果。

首先,更大的令牌预算显著提高了多个领域基准的性能,包括网络安全、FrontierMath、Humanity's Last Exam和TerminalBench。

其次,固定预算评估可能会越来越低估前沿能力,尤其是在模型进步时。更新的模型在大预算下表现更高,能够解锁更难的任务并更可靠地解决它们。

最后,各基准在推理扩展方法的有效性上有所不同:重复提交普遍提升性能,但更大令牌预算、外部反馈和并行尝试的价值因基准而异。

总体而言,我们的结果表明,基准分数依赖于协议。因此,我们认为评估应将能力报告为推理时计算的函数,明确指定协议选择,并在匹配预算的大范围共享计算中比较模型代际,尤其是在安全或政策相关的设置中。

博主点评: 本文揭示了推理计算对大型语言模型评估的重要性,强调了在评估中考虑计算资源的多样性和灵活性。随着模型的进步,固定预算的评估方式显然无法全面反映模型能力,因此建议更新评估标准以适应新技术的发展。

原文链接: https://arxiv.org/abs/2606.17930

[h] 返回首页