[AI学术] 从过程层面深入评估网络智能体的失败原因

摘要

网络智能体通过长时间的交互序列进行操作，但现有基准测试仅评估最终成功，忽略了所有过程信息，提供的改进指导有限。本文进行了一项网络智能体的过程层面分析，推出了 WebStep，这是一个包含 1800 个任务实例的基准，具有可控的难度和自动语义状态跟踪。

每个网站在 GUI 的同时暴露出一个确定性的语义马尔可夫决策过程（MDP）：智能体在界面上操作，而环境在后台记录高层状态和转移，从而实现无人工标注的细粒度分析。

基于语义轨迹，我们首先展示了过程指标揭示了结果评估不可见的差异：三个成功率在 31% 到 33% 范围内的智能体在探索范围与执行准确性上存在分歧。

然后，通过技能分解来表征这些差异的性质，揭示了在同一网站内隐藏的对立技能排名：例如，在住房任务中，OpenAI CUA 在提交操作上比 Qwen3.5 超过 23.7%，但在过滤操作上却低于 15.6%，明确指出了即使在同一领域中也需改进的具体技能。

分叉分析进一步定位了导致任务失败的决定性错误，并显示该错误是特定于智能体的，而非共享的。

最后，随着任务难度增加，这些差异进一步扩大：在简单任务上成功率相似，但随着探索变得更加苛刻，成功率急剧分离。

我们的过程层面分析为网络智能体评估开辟了一条新途径，提供了细粒度且可操作的洞察，明确了每个智能体应如何改进。