[AI学术] 潜在思维流：大型语言模型中的高效潜在推理

摘要

大型语言模型（LLMs）日益依赖于中间推理，但显式的思维链（CoT）存在语言空间瓶颈：每个思维必须被解码为标记，导致高推理开销。潜在推理将推理过程转移到连续空间，但现有方法大多学习确定性或奖励最大化路径，缺乏在不同正确性和成本的轨迹上分配概率的原则性方法。

我们提出潜在思维流（LTF），将推理建模为可变长度的连续轨迹，并训练一个采样器以匹配基于奖励的后验分布，考虑回答质量和计算成本。我们使用连续的GFlowNet实例化这一过程，采用随机潜在转移。

为了解决稀疏答案监督的问题，我们引入了熵加权子轨迹平衡目标，以便为中间奖励提供支持，并使用参考先验正则化器来锚定探索。实验表明，在微调和迁移学习的设置下，LTF在准确性上超越了显式CoT和潜在推理基线，平均提高了9.5%的准确率，同时推理长度减少了27.2%。

博主点评： 潜在思维流（LTF）的提出为大型语言模型的推理过程带来了新的视角，通过将推理转移至连续空间，显著降低了推理开销。结合熵加权与正则化措施，LTF不仅提高了准确性，还优化了推理效率，展现了深度学习领域中对推理过程的深刻理解和创新。