摘要
网络智能体通过长时间的交互序列进行操作,但现有基准测试仅评估最终成功,忽略了所有过程信息,提供的改进指导有限。本文进行了一项网络智能体的过程层面分析,推出了 WebStep,这是一个包含 1800 个任务实例的基准,具有可控的难度和自动语义状态跟踪。
每个网站在 GUI 的同时暴露出一个确定性的语义马尔可夫决策过程(MDP):智能体在界面上操作,而环境在后台记录高层状态和转移,从而实现无人工标注的细粒度分析。
基于语义轨迹,我们首先展示了过程指标揭示了结果评估不可见的差异:三个成功率在 31% 到 33% 范围内的智能体在探索范围与执行准确性上存在分歧。
然后,通过技能分解来表征这些差异的性质,揭示了在同一网站内隐藏的对立技能排名:例如,在住房任务中,OpenAI CUA 在提交操作上比 Qwen3.5 超过 23.7%,但在过滤操作上却低于 15.6%,明确指出了即使在同一领域中也需改进的具体技能。
分叉分析进一步定位了导致任务失败的决定性错误,并显示该错误是特定于智能体的,而非共享的。
最后,随着任务难度增加,这些差异进一步扩大:在简单任务上成功率相似,但随着探索变得更加苛刻,成功率急剧分离。
我们的过程层面分析为网络智能体评估开辟了一条新途径,提供了细粒度且可操作的洞察,明确了每个智能体应如何改进。