[AI学术] 推理计算如何塑造前沿大型语言模型的评估

在人工智能评估中，任务难度逐渐增加，尤其是在涉及工具使用和迭代问题解决的情况下。因此，模型的性能对测试时可用的计算资源（“推理计算”）的数量和分配变得越来越敏感。然而，许多评估仍然在单一限制预算下报告性能，这意味着低分可能反映评估设置而非模型的实际能力。为此，我们在七个挑战性基准上评估了多达12个前沿语言模型，这些基准涵盖软件工程、数学、医学和网络安全等领域。

我们采用了一个受控设置，结合了三种简单的推理扩展干预措施：更大的令牌预算、上下文压缩和重复提交尝试，这些尝试由模型本身或最小的正确性反馈引导。我们的研究发现了三项主要结果。

首先，更大的令牌预算显著提高了多个领域基准的性能，包括网络安全、FrontierMath、Humanity's Last Exam和TerminalBench。

其次，固定预算评估可能会越来越低估前沿能力，尤其是在模型进步时。更新的模型在大预算下表现更高，能够解锁更难的任务并更可靠地解决它们。

最后，各基准在推理扩展方法的有效性上有所不同：重复提交普遍提升性能，但更大令牌预算、外部反馈和并行尝试的价值因基准而异。

总体而言，我们的结果表明，基准分数依赖于协议。因此，我们认为评估应将能力报告为推理时计算的函数，明确指定协议选择，并在匹配预算的大范围共享计算中比较模型代际，尤其是在安全或政策相关的设置中。

博主点评： 本文揭示了推理计算对大型语言模型评估的重要性，强调了在评估中考虑计算资源的多样性和灵活性。随着模型的进步，固定预算的评估方式显然无法全面反映模型能力，因此建议更新评估标准以适应新技术的发展。