在自我中心视频中,细粒度动作识别对视觉语言模型(VLMs)来说是一项挑战:动作之间的差异往往仅在于微小的视觉线索,而单一模型往往会偏向于这些线索的某一子集。我们提出了划分、审议、决策(Divide, Deliberate, Decide),这是一个完全本地化、零-shot的多智能体框架。具体来说,
- 视频分块:VLM调度器将视频分块,并为每个片段提出前k个候选标签列表;
- 异构专家协作:来自不同开放模型家族的异构VLM专家在结构化审议中参与,包括一次同行咨询的提问环节;
- 排名聚合:通过Borda计数法聚合智能体排名,并且调度器根据专家的证据重新排名其自身的预测。
整个流程在本地运行,无需微调。实验表明,我们的方法在零-shot动作识别性能上显著优于基线,强调了异构审议步骤的影响,显示出收益源自于去相关的模型先验,而非额外的计算资源。
博主点评: 本文提出的多智能体框架通过异构模型的协作,巧妙地解决了细粒度动作识别中的偏见问题,展现了在不依赖大量标注数据的情况下,如何有效提升模型性能的潜力。此方法在未来的动作识别任务中具有广泛的应用前景。