[AI学术] HiLo-Token：输入自适应高低频令牌压缩提升图像编辑效率

在日常使用中，创意图像编辑工具如 Photoshop 的 Remove 或 Generative Fill 按钮占据了重要地位，并在 Photoshop 和 Lightroom 的流量中占据了主要份额。然而，目前的生成 AI 模型面临显著的延迟挑战，尤其是在从基于卷积的 U-Net 转变为扩散变换器（DiTs）时。在对数百个代表性图像编辑样本的评估中，DiT 模块平均占据了总模型延迟的 73%，即便在将时间步从 50 降至 8 之后仍然如此。

为了解决这一挑战，我们提出了 HiLo-Token，一种输入自适应令牌压缩框架。该框架为高频、丰富上下文区域分配更多的令牌预算，而为低频区域分配较少的令牌。具体而言，对于用户掩码指定的编辑区域，我们保留所有位于膨胀掩码内的令牌，以保持强局部性和上下文相关性。在编辑区域之外，我们引入了一种基于空间频率的简单有效的高频令牌选择策略，以捕捉重要的局部细节，同时使用来自 16x 下采样图像的令牌来表示低频组件，从而保留模糊但全局的结构。对生产级评估数据的广泛实验验证了该方法的有效性，在 A100-80GB 上针对小、中、大掩码比例类别的图像编辑任务实现了 3.13x、2.59x 和 1.67x 的 DiT 加速，平均掩码比例分别为 6.38%、15.92% 和 35.36%，且生成质量没有任何下降。

博主点评： HiLo-Token 的提出针对当前生成模型的延迟问题提供了有效的解决方案，通过动态令牌分配优化了高低频信息的处理，展现了在图像编辑领域的巨大潜力。此方法的实验结果显示了显著的性能提升，标志着图像处理技术的进一步发展。