[AI学术] VigilFormer：变形注意力在视频异常检测中的突破性应用

在监控环境中，视频异常检测需要在检测准确性与实时处理能力之间取得平衡。现有方法通常通过更强的特征提取器或更高效的架构来解决这一矛盾，但很少兼顾两者。我们提出了VigilFormer，一个结合了变形时空注意力与因果时间建模的统一框架，旨在检测未裁剪监控视频中的异常情况。

提议的变形时空编码器（DSTE）关注于跨帧的稀疏信息位置，避免了密集注意力的平方成本，同时保留了捕捉不规则运动模式的能力。因果异常分类器（CAC）在片段级特征上应用扩张因果卷积，并优化一个对比多实例学习目标，能在没有帧级标签的情况下区分异常与正常表示。为了满足部署约束，自适应置信度调度器（ACS）在推理时动态跳过低信息帧，从而减少静态场景中的冗余计算。

在UCF-Crime、ShanghaiTech和CUHK Avenue数据集上的评估结果显示，VigilFormer分别达到了87.83%、97.21%和89.74%的AUC分数，同时在单个GPU上以41.5 FPS的速度运行，超越了近期的弱监督方法，兼顾了准确性与速度。

博主点评： VigilFormer通过引入变形时空注意力和因果建模，成功解决了视频异常检测中的效率与准确性矛盾，为监控视频分析提供了新的解决方案，展现了极高的实用价值。其在多种数据集上的优异表现，证明了其在实际应用中的潜力。与传统方法相比，这种结合方式为未来的研究指明了方向。