[AI学术] STAR：时空自适应奖励分配提升文本生成图像的强化学习后训练

在文本生成图像的强化学习后训练中，现有的方法通常将最终图像的奖励转化为单一标量优势，并以相同的强度应用于整个生成轨迹。然而，文本到图像的生成自然具有时序和空间结构：不同的去噪步骤负责不同的生成阶段，而真正决定文本对齐的内容往往仅出现在图像的一部分。这种粒度不匹配使得策略更新难以集中于实际影响奖励的生成组件。

为了解决这个问题，我们提出了时空自适应奖励（STAR）分配，用于文本到图像的扩散和流模型的强化学习后训练。STAR利用生成模型内部的文本-图像注意力机制，从用户在提示中真正关心的核心内容出发，构建在去噪步骤和回滚中动态变化的空间分配图，并将相同的组相对优势分配给更相关的潜在区域，几乎没有额外的计算开销。随后，STAR通过空间分辨的策略目标对这些区域施加更强的策略更新。

我们以Stable Diffusion 3.5 Medium作为基础模型，并在三个任务上进行评估：GenEval、OCR文本渲染和PickScore。实验结果表明，STAR在不改变外部奖励源的情况下，提升了组合语义对齐、文本渲染和偏好优化，分别达到了$\textbf{0.9759}$、$\textbf{0.9757}$和$\textbf{23.60}$的成绩。

博主点评： STAR方法通过引入时空自适应机制，解决了文本生成图像中的奖励分配问题，能够有效聚焦于影响生成质量的关键区域，展现了在多任务评估中的卓越性能。这为文本到图像生成的进一步研究提供了新的思路，值得关注。