[AI学术] 突破域的界限：通过可转移交互模式重用网络技能

摘要

大型语言模型（LLM）网络代理通常作为工具调用者被部署：每轮，模型读取一个新的页面观察并发出一个结构化的工具动作。当每个动作都是低级原语时，视野迅速扩大，导致政策导向的 LLM 完成也随之增长，主导了 Mind2Web 和 WebArena 等基准的延迟和成本。因此，最近的系统将重复交互片段包装为网络技能：从成功轨迹或诱导程序构建的可调用工具，以便一次调用可以替代多个原语。然而，先前的技能库主要通过指令相似性或粗略的网站元数据触发，这导致在保留网站上的技能重用率低，并且未能充分利用潜在的步骤和令牌减少。

我们提出了 SkillMigrator，一个通过匹配布局结构而非特定元素引用来学习可重用网络技能并在网站间转移的代理。每个诱导的技能作为可转移交互模式（TIP）存储：该技能与诱导时快照的结构草图配对。在测试时，SkillMigrator 通过布局相似性检索 TIP，并在实时页面上固定其引用。其余部分为标准：具有稳定引用的可访问性快照观察，以及对原语和技能调用的固定工具调用。

与最先进的方法相比，SkillMigrator 在成功轨迹上的平均 LLM 动作计数减少了 8-10%，在匹配成功率的情况下适用于 WebArena 和 Mind2Web。

博主点评： SkillMigrator 的创新在于其通过布局结构匹配来实现技能重用，显著提高了网络代理的效率。这一方法不仅减少了动作数量，还优化了操作成本，为未来的LLM应用提供了新的思路。其在实际网站上的应用潜力值得关注。