在生成模型中,推断时间的扩展是一种有前景的范式,尤其是在输出必须满足结构约束或优化下游奖励时。我们考虑掩蔽扩散模型(Masked Diffusion Model, MDM),并引入MDM-VGB,这是一种离散扩散采样器,通过理论上合理的奖励引导重掩蔽增强了去掩蔽生成。
受到经典Jerrum-Sinclair回溯马尔可夫链在奖励倾斜生成中成功的启发,MDM-VGB将回溯随机游走从固定前缀树扩展到掩蔽状态图,允许在任意位置对标记进行去掩蔽和重掩蔽。该采样器偏好那些能导致更高价值部分配置的去掩蔽和重掩蔽操作,从而实现有效的高奖励生成及低奖励样本的高效修复。
我们证明了MDM-VGB对过程验证噪声的鲁棒性,并达到了二次复杂度,而流行的测试时间启发式方法,如best-of-$N$,可能由于错误累积导致指数复杂度。我们的理论发现得到了强有力的实证支持,特别是在如数独(Sudoku)和QM9等流行约束满足和科学基准上表现出色。
博主点评: MDM-VGB在掩蔽扩散模型中的创新应用,不仅提升了生成质量,还有效降低了复杂度,为满足结构约束的生成任务提供了新的思路,值得关注。其在实际应用中的表现也为后续研究指明了方向。