自监督视频表征学习近年来通过对比学习、掩码重建和预测表征学习取得了显著进展。重建方法如 MAE 和 VideoMAE 通过恢复被掩码的视觉内容来学习表征,而对比方法如 CLIP 通过表征对齐学习语义上有意义的嵌入空间。
在本研究中,我们提出了一种动量引导的语义预测框架(MoFore)用于自监督视频表征学习。与优化像素级重建或特定任务的语义对齐不同,该方法通过从时间上距离较远的上下文剪辑中预测未来潜在嵌入,学习时间预测的视频表征。为了提高在不同时间尺度上的鲁棒性,我们在训练过程中引入了随机时间间隔预测。
该框架结合了预测潜在嵌入的预测与对比正则化,以鼓励时间一致性并防止表征崩溃。在 UCF101 数据集上的实验表明,所提出的框架在训练过程中无需使用动作标签,便能学习到时间一致且语义上有意义的视频表征。定量分析显示学习的嵌入空间具有很强的时间稳定性和新兴的类别级结构,而定性检索实验则揭示了相关活动之间的运动感知组织。
总体而言,结果表明长期潜在预测为自监督视频表征学习提供了一种有效且计算上高效的方法,而不依赖于基于重建的目标。
博主点评: 本文提出的 MoFore 框架通过动量引导的语义预测,在自监督视频学习领域开辟了新的思路。其在时间一致性和语义表征上的优势,表明了长期潜在预测的巨大潜力,值得进一步探索与实践。