NeFut Logo NeFut
EN 管理员登录

[AI学术] SEAGym:自我进化LLM代理的评估环境

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:45
#AI #Machine Learning #Open Source

摘要

自我进化的基于LLM的代理主要通过改变其代理工具来改进,包括围绕基础模型的结构化执行层、提示、内存、工具、中间件、运行时状态以及模型与工具的交互循环。现有评估通常将这一过程简化为孤立的任务得分或单一的顺序曲线,这掩盖了更新是否产生可重用的改进、是否过拟合最近任务、是否增加成本或是否损害旧有行为。

我们引入了SEAGym,一个用于测量代理工具更新的评估环境,涵盖训练、验证、测试、重放和成本记录。SEAGym将兼容Harbor的基准转化为动态的自我进化任务来源,具备训练批次、冻结的更新验证、保留的ID和OOD转移视图、重放诊断以及保存的快照和指标记录。

在Terminal-Bench 2.0和HLE上实例化SEAGym,我们在共享的纪元/批次协议下比较了ACE、TF-GRPO和AHE。结果表明,这些评估视图提供了关于进化过程的互补信号:频繁的更新可能未能改善持有的表现,有用的中间快照可能会后期崩溃,源的多样性和模型后端可能会影响工具的可靠性。

博主点评: SEAGym为自我进化的LLM代理提供了一个全面的评估框架,能够深入分析更新对性能的影响。这一工具的引入,有助于研究人员更好地理解和优化代理的演变过程,尤其是在动态环境中的应用潜力。通过对比不同模型和更新策略,研究者可以获得更丰富的见解,从而推动LLM技术的前沿发展。

原文链接: https://arxiv.org/abs/2606.17546

[h] 返回首页