NeFut Logo NeFut
EN 管理员登录

[AI学术] 从过程层面深入评估网络智能体的失败原因

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#algorithm #C++ #Open Source

摘要

网络智能体通过长时间的交互序列进行操作,但现有基准测试仅评估最终成功,忽略了所有过程信息,提供的改进指导有限。本文进行了一项网络智能体的过程层面分析,推出了 WebStep,这是一个包含 1800 个任务实例的基准,具有可控的难度和自动语义状态跟踪。

每个网站在 GUI 的同时暴露出一个确定性的语义马尔可夫决策过程(MDP):智能体在界面上操作,而环境在后台记录高层状态和转移,从而实现无人工标注的细粒度分析。

基于语义轨迹,我们首先展示了过程指标揭示了结果评估不可见的差异:三个成功率在 31% 到 33% 范围内的智能体在探索范围与执行准确性上存在分歧。

然后,通过技能分解来表征这些差异的性质,揭示了在同一网站内隐藏的对立技能排名:例如,在住房任务中,OpenAI CUA 在提交操作上比 Qwen3.5 超过 23.7%,但在过滤操作上却低于 15.6%,明确指出了即使在同一领域中也需改进的具体技能。

分叉分析进一步定位了导致任务失败的决定性错误,并显示该错误是特定于智能体的,而非共享的。

最后,随着任务难度增加,这些差异进一步扩大:在简单任务上成功率相似,但随着探索变得更加苛刻,成功率急剧分离。

我们的过程层面分析为网络智能体评估开辟了一条新途径,提供了细粒度且可操作的洞察,明确了每个智能体应如何改进。

原文链接: https://arxiv.org/abs/2606.15673

[h] 返回首页