NeFut Logo NeFut
EN 管理员登录

[AI学术] STAR:时空自适应奖励分配提升文本生成图像的强化学习后训练

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:47
#AI #Machine Learning #optimization

在文本生成图像的强化学习后训练中,现有的方法通常将最终图像的奖励转化为单一标量优势,并以相同的强度应用于整个生成轨迹。然而,文本到图像的生成自然具有时序和空间结构:不同的去噪步骤负责不同的生成阶段,而真正决定文本对齐的内容往往仅出现在图像的一部分。这种粒度不匹配使得策略更新难以集中于实际影响奖励的生成组件。

为了解决这个问题,我们提出了时空自适应奖励(STAR)分配,用于文本到图像的扩散和流模型的强化学习后训练。STAR利用生成模型内部的文本-图像注意力机制,从用户在提示中真正关心的核心内容出发,构建在去噪步骤和回滚中动态变化的空间分配图,并将相同的组相对优势分配给更相关的潜在区域,几乎没有额外的计算开销。随后,STAR通过空间分辨的策略目标对这些区域施加更强的策略更新。

我们以Stable Diffusion 3.5 Medium作为基础模型,并在三个任务上进行评估:GenEval、OCR文本渲染和PickScore。实验结果表明,STAR在不改变外部奖励源的情况下,提升了组合语义对齐、文本渲染和偏好优化,分别达到了$\textbf{0.9759}$、$\textbf{0.9757}$和$\textbf{23.60}$的成绩。

博主点评: STAR方法通过引入时空自适应机制,解决了文本生成图像中的奖励分配问题,能够有效聚焦于影响生成质量的关键区域,展现了在多任务评估中的卓越性能。这为文本到图像生成的进一步研究提供了新的思路,值得关注。

原文链接: https://arxiv.org/abs/2606.17979

[h] 返回首页