NeFut Logo NeFut
EN 管理员登录

[AI学术] CoffeeBench:评估长时程 LLM 代理在异构多智能体经济中的表现

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:45
#algorithm #AI #Open Source

摘要

随着 LLM 代理在长时程任务中的能力不断增强,评估它们在经济系统中的表现变得愈发重要。现有的基准主要评估单一代理与被动环境的互动,而经济系统本质上是多代理的,要求自主代理在追求自身目标的同时进行沟通、谈判和交易。我们介绍了 CoffeeBench,这是一个用于评估 LLM 代理在由异构企业组成的长时程多代理经济中的基准。

在 CoffeeBench 中,两个农民、两个烘焙师和两个零售商在 90 天的模拟中自主运营各自的业务,旨在通过沟通和交易最大化累计净收入,同时管理现金、库存和定价。被评估的模型控制一个咖啡烘焙师,而其余企业则由固定参考代理控制。

在几种最近的开放权重和专有 LLM 模型中,所有模型的表现均优于不采取行动的被动基线,大多数模型实现了正的净收入。对代理行为的分析显示了长时程经济互动中的显著差异:表现更好的模型与其他企业的沟通更加积极,而 Claude Haiku 4.5 则表现出一种闲置漂移的失败模式,尽管产生了连贯的评估和计划,却反复选择不采取行动。我们发布了我们的代码和代理轨迹,以支持未来的研究。

博主点评: 本文通过 CoffeeBench 基准有效地填补了 LLM 代理在多智能体经济中评估的空白,强调了长时程任务中代理间互动的重要性,尤其是高效沟通对经济表现的影响。这一研究方向为未来的智能体开发提供了宝贵的参考。

原文链接: https://arxiv.org/abs/2606.16613

[h] 返回首页