NeFut Logo NeFut
EN 管理员登录

[AI学术] 揭示模型行为:通过智能体轨迹分析

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:45
#AI #Machine Learning #optimization

在人工智能领域,智能体的性能不仅是一个建模问题,更是一个系统性问题。模型的高级能力通过智能体的设计得以实现。因此,模型假设与智能体行为之间的差距可能阻碍模型能力的充分发挥。我们将其形式化为 意图-执行 差距:即模型意图与智能体执行之间的错位。我们认为,最小化这一意图-执行差距与其他智能体设计方面(如工具和执行循环)同等重要。

为了展示智能体与模型对齐的影响,我们开发了一种简单且可定制的智能体框架,称为 简单线索智能体(SSA)。SSA旨在找到跨不同模型家族(如Claude、Gemini、GPT、Grok、Qwen)普遍存在的模式,以及少量模型特定的偏好。

我们做出了两个贡献:(i)我们在流行的智能基准测试(如SWE-Pro、SWE-Verified和Terminal-Bench-2)上,$\textbf{重现或改进了多种模型提供者家庭报告的 pass@1}$ 性能;(ii)基于对SSA生成的138k轨迹的分析,我们超越了通常在前沿模型间相对均匀的 $\texttt{pass@1}$ 数字。通过在代码状态空间中表示智能体轨迹,我们观察到了模型在问题解决行为上的差异。更细致的指标,如编辑频率、测试活动和阶段转变,揭示了各个模型在自主问题解决的不同阶段如何分配努力。

博主点评: 本文深入探讨了智能体与模型之间的协调问题,强调了意图与执行的一致性对模型性能的重要性。SSA的开发为理解不同模型在实际应用中的行为提供了有价值的视角,尤其是在如何优化智能体执行方面具有指导意义。

原文链接: https://arxiv.org/abs/2606.17454

[h] 返回首页