[AI学术] 突破性混合精度量化框架：MODE助力多模态大模型性能提升

摘要

Mixture-of-Experts Multimodal Large Language Models (MoE-MLLMs) 提供了卓越的性能，但由于显著的 GPU 内存消耗，使得压缩变得至关重要。在后训练量化（PTQ）方法中，专家级混合精度量化已被证明对 MoE-LLMs 有效，但在 MoE-MLLMs 上却存在显著的性能下降，这主要源于专家重要性估计中的两个被忽视的偏差：

跨模态偏差：视觉标记的数值主导性导致专家选择频率被视觉标记主导，掩盖了对文本模态至关重要的专家；
视觉内部偏差：冗余视觉标记的大比例进一步扭曲频率统计，模糊了对信息丰富视觉内容至关重要的专家。

为了解决这些问题，我们提出了 MODE，一个针对 MoE-MLLMs 的模态分解专家级混合精度量化框架。该框架通过模态分解专家选择频率，过滤冗余视觉标记以获得去噪的视觉频率，并进一步根据每个模态评估量化敏感性，作为频率估计的补充信号。这些信号被整合到一个整数线性编程公式中，以在给定预算下为每个专家分配比特宽度。

大量实验表明，MODE 特别适合 MoE-MLLMs，在 W3A16 设置下，平均性能损失限制在 2.9% 内，并在极端的 2 位设置下获得更大的增益。

博主点评： MODE 框架的提出不仅有效解决了 MoE-MLLMs 中的性能下降问题，还通过引入模态分解的方法，提升了模型在多模态任务中的表现。此创新在大规模语言模型的压缩与优化领域具有重要的应用前景。