NeFut Logo NeFut
EN 管理员登录

[AI学术] SkillMoV:基于原型条件门控的视图混合路由框架,实现统一的多视角能力评估

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:49
#AI #Machine Learning #optimization

摘要

从视频中评估人类能力是自动化技能评估的一项关键挑战,广泛应用于体育教练、音乐教育、外科培训和职场学习等领域。现有方法通常专注于单一场景或依赖共享的多视角聚合,限制了它们在异构摄像头视角和活动领域中的适应能力。

我们提出了SkillMoV,这是一种统一且参数高效的框架,用于从同步的多视角视频中进行多场景能力评估。SkillMoV的核心是引入了一种视图混合投影器(Mixture-of-View Projector, MoVP),该投影器将专家混合范式应用于摄像机特定的视图特征。MoVP由以下四个阶段组成:

  1. 视图混合软路由:使用十二个专家多层感知机(MLP)学习视图依赖的专家偏好,而无需摄像头身份监督;
  2. 跨视图注意力:对齐同步摄像机;
  3. 可学习的原型锚定:根据类级参考向量条件化表示;
  4. 原型条件门控投影:生成最终的技能嵌入。

我们在EgoExo4D数据集上评估了SkillMoV,覆盖六个技能领域以及三种单独训练的视图配置:Ego、Exos和Ego+Exos。SkillMoV在Exos设置中以单一模型联合训练所有场景,达到了50.17%的整体准确率,超越了比较方法中报告的最强Exos结果3.57个百分点。在Ego+Exos中,SkillMoV的表现接近该设置下报告的最佳结果(47.63%对比48.20%)。

关于选定的Exos配置的消融实验验证了每个组件的贡献:MoV路由较注意力聚合贡献+6.61 pp,跨视图注意力+4.92 pp,原型锚定+4.07 pp,随机视图丢弃+3.90 pp。通过LoRA适配,SkillMoV仅训练23.32%的参数,相较于仅使用LoRA的基线模型增加了有限的开销。

博主点评:SkillMoV通过引入视图混合投影器,显著提升了多场景能力评估的效果,尤其在异构摄像头视角下的表现尤为突出。其参数高效性和模块化设计为未来的研究提供了新的思路,值得关注!

原文链接: https://arxiv.org/abs/2606.17615

[h] 返回首页