[算法理论] 全新MDM-VGB：高效满足奖励和样本编辑的掩蔽扩散模型

在生成模型中，推断时间的扩展是一种有前景的范式，尤其是在输出必须满足结构约束或优化下游奖励时。我们考虑掩蔽扩散模型（Masked Diffusion Model, MDM），并引入MDM-VGB，这是一种离散扩散采样器，通过理论上合理的奖励引导重掩蔽增强了去掩蔽生成。

受到经典Jerrum-Sinclair回溯马尔可夫链在奖励倾斜生成中成功的启发，MDM-VGB将回溯随机游走从固定前缀树扩展到掩蔽状态图，允许在任意位置对标记进行去掩蔽和重掩蔽。该采样器偏好那些能导致更高价值部分配置的去掩蔽和重掩蔽操作，从而实现有效的高奖励生成及低奖励样本的高效修复。

我们证明了MDM-VGB对过程验证噪声的鲁棒性，并达到了二次复杂度，而流行的测试时间启发式方法，如best-of-$N$，可能由于错误累积导致指数复杂度。我们的理论发现得到了强有力的实证支持，特别是在如数独（Sudoku）和QM9等流行约束满足和科学基准上表现出色。

博主点评： MDM-VGB在掩蔽扩散模型中的创新应用，不仅提升了生成质量，还有效降低了复杂度，为满足结构约束的生成任务提供了新的思路，值得关注。其在实际应用中的表现也为后续研究指明了方向。