NeFut Logo NeFut
EN 管理员登录

[AI学术] HiLo-Token:输入自适应高低频令牌压缩提升图像编辑效率

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#AI #Machine Learning #Open Source

在日常使用中,创意图像编辑工具如 Photoshop 的 Remove 或 Generative Fill 按钮占据了重要地位,并在 Photoshop 和 Lightroom 的流量中占据了主要份额。然而,目前的生成 AI 模型面临显著的延迟挑战,尤其是在从基于卷积的 U-Net 转变为扩散变换器(DiTs)时。在对数百个代表性图像编辑样本的评估中,DiT 模块平均占据了总模型延迟的 73%,即便在将时间步从 50 降至 8 之后仍然如此。

为了解决这一挑战,我们提出了 HiLo-Token,一种输入自适应令牌压缩框架。该框架为高频、丰富上下文区域分配更多的令牌预算,而为低频区域分配较少的令牌。具体而言,对于用户掩码指定的编辑区域,我们保留所有位于膨胀掩码内的令牌,以保持强局部性和上下文相关性。在编辑区域之外,我们引入了一种基于空间频率的简单有效的高频令牌选择策略,以捕捉重要的局部细节,同时使用来自 16x 下采样图像的令牌来表示低频组件,从而保留模糊但全局的结构。对生产级评估数据的广泛实验验证了该方法的有效性,在 A100-80GB 上针对小、中、大掩码比例类别的图像编辑任务实现了 3.13x、2.59x 和 1.67x 的 DiT 加速,平均掩码比例分别为 6.38%、15.92% 和 35.36%,且生成质量没有任何下降。

博主点评: HiLo-Token 的提出针对当前生成模型的延迟问题提供了有效的解决方案,通过动态令牌分配优化了高低频信息的处理,展现了在图像编辑领域的巨大潜力。此方法的实验结果显示了显著的性能提升,标志着图像处理技术的进一步发展。

原文链接: https://arxiv.org/abs/2606.13898

[h] 返回首页