[AI学术] 划分、审议、决策：多智能体框架下的细粒度自我中心动作识别

在自我中心视频中，细粒度动作识别对视觉语言模型（VLMs）来说是一项挑战：动作之间的差异往往仅在于微小的视觉线索，而单一模型往往会偏向于这些线索的某一子集。我们提出了划分、审议、决策（Divide, Deliberate, Decide），这是一个完全本地化、零-shot的多智能体框架。具体来说，

整个流程在本地运行，无需微调。实验表明，我们的方法在零-shot动作识别性能上显著优于基线，强调了异构审议步骤的影响，显示出收益源自于去相关的模型先验，而非额外的计算资源。

博主点评： 本文提出的多智能体框架通过异构模型的协作，巧妙地解决了细粒度动作识别中的偏见问题，展现了在不依赖大量标注数据的情况下，如何有效提升模型性能的潜力。此方法在未来的动作识别任务中具有广泛的应用前景。