[AI学术] SEAGym：自我进化LLM代理的评估环境

摘要

自我进化的基于LLM的代理主要通过改变其代理工具来改进，包括围绕基础模型的结构化执行层、提示、内存、工具、中间件、运行时状态以及模型与工具的交互循环。现有评估通常将这一过程简化为孤立的任务得分或单一的顺序曲线，这掩盖了更新是否产生可重用的改进、是否过拟合最近任务、是否增加成本或是否损害旧有行为。

我们引入了SEAGym，一个用于测量代理工具更新的评估环境，涵盖训练、验证、测试、重放和成本记录。SEAGym将兼容Harbor的基准转化为动态的自我进化任务来源，具备训练批次、冻结的更新验证、保留的ID和OOD转移视图、重放诊断以及保存的快照和指标记录。

在Terminal-Bench 2.0和HLE上实例化SEAGym，我们在共享的纪元/批次协议下比较了ACE、TF-GRPO和AHE。结果表明，这些评估视图提供了关于进化过程的互补信号：频繁的更新可能未能改善持有的表现，有用的中间快照可能会后期崩溃，源的多样性和模型后端可能会影响工具的可靠性。

博主点评： SEAGym为自我进化的LLM代理提供了一个全面的评估框架，能够深入分析更新对性能的影响。这一工具的引入，有助于研究人员更好地理解和优化代理的演变过程，尤其是在动态环境中的应用潜力。通过对比不同模型和更新策略，研究者可以获得更丰富的见解，从而推动LLM技术的前沿发展。