[AI学术] CoffeeBench：评估长时程 LLM 代理在异构多智能体经济中的表现

摘要

随着 LLM 代理在长时程任务中的能力不断增强，评估它们在经济系统中的表现变得愈发重要。现有的基准主要评估单一代理与被动环境的互动，而经济系统本质上是多代理的，要求自主代理在追求自身目标的同时进行沟通、谈判和交易。我们介绍了 CoffeeBench，这是一个用于评估 LLM 代理在由异构企业组成的长时程多代理经济中的基准。

在 CoffeeBench 中，两个农民、两个烘焙师和两个零售商在 90 天的模拟中自主运营各自的业务，旨在通过沟通和交易最大化累计净收入，同时管理现金、库存和定价。被评估的模型控制一个咖啡烘焙师，而其余企业则由固定参考代理控制。

在几种最近的开放权重和专有 LLM 模型中，所有模型的表现均优于不采取行动的被动基线，大多数模型实现了正的净收入。对代理行为的分析显示了长时程经济互动中的显著差异：表现更好的模型与其他企业的沟通更加积极，而 Claude Haiku 4.5 则表现出一种闲置漂移的失败模式，尽管产生了连贯的评估和计划，却反复选择不采取行动。我们发布了我们的代码和代理轨迹，以支持未来的研究。

博主点评： 本文通过 CoffeeBench 基准有效地填补了 LLM 代理在多智能体经济中评估的空白，强调了长时程任务中代理间互动的重要性，尤其是高效沟通对经济表现的影响。这一研究方向为未来的智能体开发提供了宝贵的参考。