[AI学术] SkillMoV：基于原型条件门控的视图混合路由框架，实现统一的多视角能力评估

摘要

从视频中评估人类能力是自动化技能评估的一项关键挑战，广泛应用于体育教练、音乐教育、外科培训和职场学习等领域。现有方法通常专注于单一场景或依赖共享的多视角聚合，限制了它们在异构摄像头视角和活动领域中的适应能力。

我们提出了SkillMoV，这是一种统一且参数高效的框架，用于从同步的多视角视频中进行多场景能力评估。SkillMoV的核心是引入了一种视图混合投影器（Mixture-of-View Projector, MoVP），该投影器将专家混合范式应用于摄像机特定的视图特征。MoVP由以下四个阶段组成：

视图混合软路由：使用十二个专家多层感知机（MLP）学习视图依赖的专家偏好，而无需摄像头身份监督；
跨视图注意力：对齐同步摄像机；
可学习的原型锚定：根据类级参考向量条件化表示；
原型条件门控投影：生成最终的技能嵌入。

我们在EgoExo4D数据集上评估了SkillMoV，覆盖六个技能领域以及三种单独训练的视图配置：Ego、Exos和Ego+Exos。SkillMoV在Exos设置中以单一模型联合训练所有场景，达到了50.17%的整体准确率，超越了比较方法中报告的最强Exos结果3.57个百分点。在Ego+Exos中，SkillMoV的表现接近该设置下报告的最佳结果（47.63%对比48.20%）。

关于选定的Exos配置的消融实验验证了每个组件的贡献：MoV路由较注意力聚合贡献+6.61 pp，跨视图注意力+4.92 pp，原型锚定+4.07 pp，随机视图丢弃+3.90 pp。通过LoRA适配，SkillMoV仅训练23.32%的参数，相较于仅使用LoRA的基线模型增加了有限的开销。

博主点评：SkillMoV通过引入视图混合投影器，显著提升了多场景能力评估的效果，尤其在异构摄像头视角下的表现尤为突出。其参数高效性和模块化设计为未来的研究提供了新的思路，值得关注！