[AI学术] Orchestra-o1：颠覆性的全模态智能体编排框架

摘要

近期，智能体群体的成功转变了基于大型语言模型（LLM）的智能体工作流，从单一智能体到多智能体系统，凸显了智能体编排在任务分解和协作中的重要性。然而，现有的编排框架仅限于狭窄的模态，难以推广到更复杂的环境中，尤其是在异构模态共存和交互的情况下。

在全模态场景中，这一限制尤为明显，因为这些任务需要对文本、图像、音频和视频等多种输入的统一理解和协调。

在此项工作中，我们提出了Orchestra-o1，一个旨在支持多模态智能体高效协作的全模态智能体编排框架。Orchestra-o1引入了一种统一的编排机制，使得模态感知的任务分解、在线子智能体专业化和并行子任务执行成为可能。

这种可扩展的设计使得智能体系统能够有效应对涉及异构信息源的复杂现实任务，在OmniGAIA基准测试中，准确率超越第二名方法10.3%。此外，我们引入了决策对齐的组相对策略优化（DA-GRPO），这是一种高效的智能体强化学习方法，用于训练Orchestra-o1-8B，并在所有现有的开源全模态智能体中实现了最先进的性能。

博主点评：这项研究展示了全模态智能体编排的重要性，尤其是在处理复杂任务时的高效性和准确性。Orchestra-o1的提出不仅推动了理论的发展，也为实际应用提供了强有力的支持，值得关注和深入研究。