摘要
大型语言模型(LLMs)日益依赖于中间推理,但显式的思维链(CoT)存在语言空间瓶颈:每个思维必须被解码为标记,导致高推理开销。潜在推理将推理过程转移到连续空间,但现有方法大多学习确定性或奖励最大化路径,缺乏在不同正确性和成本的轨迹上分配概率的原则性方法。
我们提出潜在思维流(LTF),将推理建模为可变长度的连续轨迹,并训练一个采样器以匹配基于奖励的后验分布,考虑回答质量和计算成本。我们使用连续的GFlowNet实例化这一过程,采用随机潜在转移。
为了解决稀疏答案监督的问题,我们引入了熵加权子轨迹平衡目标,以便为中间奖励提供支持,并使用参考先验正则化器来锚定探索。实验表明,在微调和迁移学习的设置下,LTF在准确性上超越了显式CoT和潜在推理基线,平均提高了9.5%的准确率,同时推理长度减少了27.2%。
博主点评: 潜在思维流(LTF)的提出为大型语言模型的推理过程带来了新的视角,通过将推理转移至连续空间,显著降低了推理开销。结合熵加权与正则化措施,LTF不仅提高了准确性,还优化了推理效率,展现了深度学习领域中对推理过程的深刻理解和创新。