我们提出了 TickingCollabBench,这是一个基于 Minecraft 的多智能体基准,用于新型时间敏感的互补协作任务。该基准反映了现实世界协作的四个核心特征:代理异构性、强制协作、动态环境及严格的实时约束和失败风险。
为了实现这一目标,我们开发了 TickingCollab 框架,它支持多样化动态环境的生成,并抽象化 Minecraft 的原始 API,以支持声明式 YAML 任务规范,便于组合这些事件。
基于此,我们设计了一个考虑可行性的自动化基准生成管道,其中一个 LLM(大型语言模型)草拟结构多样的任务配置,而可行性验证器则利用近似约束过滤掉无效配置。
评估结果表明,语言延迟和在部分可观测性及代理异构性下协调的固有困难,导致 LLM 在动态环境中频繁失败,远低于全球知识 oracle 的表现。
博主点评: 该研究通过 Minecraft 提供了一种新的多智能体协作基准,强调了时间敏感性和动态环境对协作性能的影响。这对理解和改进智能体在复杂环境中的表现具有重要意义,尤其是在现实世界应用中可能面临的挑战。