NeFut Logo NeFut
EN 管理员登录

[算法理论] 全新MDM-VGB:高效满足奖励和样本编辑的掩蔽扩散模型

发布于:2026-06-29 22:00 最后更新:2026-07-01 09:21
#algorithm #AI #Machine Learning

在生成模型中,推断时间的扩展是一种有前景的范式,尤其是在输出必须满足结构约束或优化下游奖励时。我们考虑掩蔽扩散模型(Masked Diffusion Model, MDM),并引入MDM-VGB,这是一种离散扩散采样器,通过理论上合理的奖励引导重掩蔽增强了去掩蔽生成。

受到经典Jerrum-Sinclair回溯马尔可夫链在奖励倾斜生成中成功的启发,MDM-VGB将回溯随机游走从固定前缀树扩展到掩蔽状态图,允许在任意位置对标记进行去掩蔽和重掩蔽。该采样器偏好那些能导致更高价值部分配置的去掩蔽和重掩蔽操作,从而实现有效的高奖励生成及低奖励样本的高效修复。

我们证明了MDM-VGB对过程验证噪声的鲁棒性,并达到了二次复杂度,而流行的测试时间启发式方法,如best-of-$N$,可能由于错误累积导致指数复杂度。我们的理论发现得到了强有力的实证支持,特别是在如数独(Sudoku)和QM9等流行约束满足和科学基准上表现出色。

博主点评: MDM-VGB在掩蔽扩散模型中的创新应用,不仅提升了生成质量,还有效降低了复杂度,为满足结构约束的生成任务提供了新的思路,值得关注。其在实际应用中的表现也为后续研究指明了方向。

原文链接: https://arxiv.org/abs/2606.28301

[h] 返回首页