摘要
在智能体技能的演进中,SkillAudit 提供了一种无需真实反馈的框架。智能体技能是结构化的程序包,指导冻结的 LLM 智能体在特定工作流程中执行任务。然而,部署后的技能往往不足以应对边缘案例、API 变化和部署约束,这些问题的显现仅通过使用才能揭示,因此技能演进成为一种实际需求。
现有方法通常依赖于特权反馈,如保留验证分数、隐藏测试结果或环境奖励,这些信号在实际操作中往往不可用,只能依赖任务描述和工作空间数据。SkillAudit 的核心思想是成对轨迹审计:在每次迭代中,使用和不使用候选技能执行相同的任务,以隔离技能如何改变智能体行为,而无需外部标签。
为将行为差异转化为编辑指导,SkillAudit 使用过程对齐对比评估(PACE),该方法通过一组评估器将轨迹偏差映射到与技能文档中特定段落相关的诊断信号。结构验证器在任务规范上编译一次后保持固定,检查任务约束并回滚有害更新。
SkillAudit 将编辑通过两个管道进行处理:Refine 移除广泛技能中嘈杂或无关的指导,而 Repair 则替换与任务冲突的段落。在涵盖 8 个专业领域的 89 个容器化任务中,SkillAudit 实现了 73.9% 的平均任务奖励,超越了没有技能的智能体(40.9%)和静态专家技能(56.7%)。这些提升是在演进过程中未访问隐藏测试、参考解决方案或外部评分函数的情况下获得的。
博主点评: SkillAudit 的成对轨迹审计方法为智能体技能的演进提供了创新途径,尤其是在缺乏真实反馈的环境中,展示了其在专业任务中的强大效能。通过结合过程对齐对比评估,SkillAudit 不仅提高了任务奖励,还有效地解决了技能演进中的不确定性问题,具有广泛的应用前景。