NeFut Logo NeFut
EN 管理员登录

[AI学术] 突破自回归诅咒:动态认知熵驱动的可擦除强化学习

发布于:2026-06-17 22:00 最后更新:2026-06-20 13:46
#algorithm #AI #Machine Learning

摘要

尽管强化学习(RL)扩展了大型语言模型(LLMs)的认知边界,但它在长时间逻辑推理中仍然容易受到自回归诅咒的影响:在生成早期引入的小的认知扰动会沿马尔可夫决策过程不可逆地传播,触发级联故障,导致推理轨迹崩溃。为了解决这一自回归级联问题,我们提出了动态认知熵驱动的可擦除强化学习($\text{E}^3\text{RL}$)。$\text{E}^3\text{RL}$ 消除了对外部信号的依赖,通过将模型的内生局部自回归交叉熵作为认知不确定性的内在坐标来实现。通过引入段级自适应动态阈值和优势分配,$\text{E}^3\text{RL}$ 使模型能够精确地剔除局部逻辑缺陷,同时重用历史关键值(KV)缓存流,从而赋予推理过程自我修复的能力。我们在 DeepMath-103k 数据集上训练了 $\text{E}^3\text{RL}$。实验结果表明,$\text{E}^3\text{RL}$ 改变了长序列推理的探索效率,提高了样本效率,同时保持线性内存开销。在 AIME 等数学推理基准上,$\text{E}^3\text{RL}$ 实现了显著的性能提升,4B 和 8B 参数模型分别超越了之前的最先进水平(SOTA)5.349% 和 6.514%。这些发现表明,$\text{E}^3\text{RL}$ 打破了长序列推理中的自回归诅咒,并为下一代自我修复的人工通用智能(AGI)奠定了理论和系统级基础。

博主点评: 动态认知熵驱动的可擦除强化学习($\text{E}^3\text{RL}$)为大型语言模型的推理过程提供了创新的解决方案,特别是在处理长序列时的逻辑错误。通过自我修复机制和高效的样本利用,$\text{E}^3\text{RL}$ 不仅提升了模型的稳定性,还为未来的人工智能发展开辟了新的方向。

原文链接: https://arxiv.org/abs/2606.17735

[h] 返回首页