[AI学术] 颠覆自注意力机制：亚平方级视觉变换器加速图像描述生成

摘要

图像描述生成是一项复杂且重要的任务，旨在为给定图像生成连贯且语义丰富的文本描述。为了实现这一目标，需要对视觉内容进行深刻理解，并能够用自然语言表达该理解。尽管基于变换器的架构取得了显著进展，但现有方法常常面临局限性，如缺乏丰富的局部特征表示以及平方级自注意力的高计算成本。

提出的模型

本模型旨在通过重构视觉变换器架构来提高计算效率。在设计这一方法时，标准的自注意力机制被替换为基于高斯混合模型（GMM）的概率变换器方法，这是一种软聚类技术。模型不是计算所有图像块之间的成对注意力，而是使用期望最大化（EM）算法将相似的图像块聚类为固定数量的簇。这种基于聚类的机制将计算复杂度从平方级 O(n^2) 降低到线性 O(nK)，其中 K 是簇的数量。通过这一创新，图像描述生成的速度和效率得到了显著提升。

博主点评： 本文提出的聚类方法有效地解决了传统自注意力在图像处理中的计算瓶颈，展现了视觉变换器在实际应用中的广泛潜力，值得深入研究与应用。