摘要
Mixture-of-Experts Multimodal Large Language Models (MoE-MLLMs) 提供了卓越的性能,但由于显著的 GPU 内存消耗,使得压缩变得至关重要。在后训练量化(PTQ)方法中,专家级混合精度量化已被证明对 MoE-LLMs 有效,但在 MoE-MLLMs 上却存在显著的性能下降,这主要源于专家重要性估计中的两个被忽视的偏差:
- 跨模态偏差:视觉标记的数值主导性导致专家选择频率被视觉标记主导,掩盖了对文本模态至关重要的专家;
- 视觉内部偏差:冗余视觉标记的大比例进一步扭曲频率统计,模糊了对信息丰富视觉内容至关重要的专家。
为了解决这些问题,我们提出了 MODE,一个针对 MoE-MLLMs 的模态分解专家级混合精度量化框架。该框架通过模态分解专家选择频率,过滤冗余视觉标记以获得去噪的视觉频率,并进一步根据每个模态评估量化敏感性,作为频率估计的补充信号。这些信号被整合到一个整数线性编程公式中,以在给定预算下为每个专家分配比特宽度。
大量实验表明,MODE 特别适合 MoE-MLLMs,在 W3A16 设置下,平均性能损失限制在 2.9% 内,并在极端的 2 位设置下获得更大的增益。
博主点评: MODE 框架的提出不仅有效解决了 MoE-MLLMs 中的性能下降问题,还通过引入模态分解的方法,提升了模型在多模态任务中的表现。此创新在大规模语言模型的压缩与优化领域具有重要的应用前景。