[AI学术] 技能到LoRA：从技能使用到行为学习的高效LLM代理

摘要

代理技能通常以 SKILL.md 文件的形式分发，这些文件是人类可读的程序文档，描述了工作流程、工具、资源以及领域约定。尽管这种设计方便检查和重用，但它要求将相同的可重用程序反复注入运行时上下文。我们提出了 Skill-to-LoRA（S2L），一种以行为为中心的技能表示，它用特定于技能的 LoRA 适配器替代了运行时技能文本。

S2L 不是压缩技能文档本身，而是建模由技能文本引发的行为变化：离线时，完整的 SKILL.md 用于合成技能指导的演示；在线时，省略完整文档，动态加载相应的 LoRA 适配器以激活学习到的技能行为。我们在 Qwen3.6-27B 上使用 SWE-Skills-Bench 的 21 项技能子集评估 S2L。与无技能和完整技能文本基线相比，S2L 提高了 2.9 和 5.2 个百分点的通过率，同时减少了相对于完整技能文本提示的每步令牌成本 6.6%。S2L 在 21 项技能中，有 18 项技能的表现与完整技能文本相当或更好，并且在 15 项技能上超越了无技能基线。控制实验进一步表明，增益依赖于特定技能适配器的对齐：Wrong-LoRA 和 Shared-LoRA 都会降低性能。这些结果表明，许多程序性代理技能可以从运行时指令转换为可训练的、动态可加载的行为模块。代码将在接受后发布。

博主点评： Skill-to-LoRA 提出了一个创新的技能表示方法，显著提高了LLM代理的效率和灵活性。通过动态加载适配器，S2L 不仅降低了资源消耗，还提升了模型在多种技能上的表现，展现了未来代理系统发展的潜力。值得期待代码的发布，以便更深入地理解其实现细节。