[AI学术] 从酝酿到解决：追踪 LLM 中代码推理的内部生命周期

摘要

标准的准确性指标无法解释为何 LLM 在变量追踪方面表现良好，却在语义等价的循环中失败。我们研究了代码推理的内部生命周期，其中模型首先酝酿答案，使其在变为自解码之前可以线性恢复，并最终分化为四种解决结果：已解决、过度处理、错误解决或未解决。理解这一生命周期至关重要，因为类似的任务准确性可能掩盖了表面评估无法检测的根本性失败模式。

我们引入了一种双重诊断框架，将层级线性探测与去上下文解码（Context-Stripped Decoding, CSD）相结合，并将其应用于涵盖 Qwen、Llama 和 DeepSeek 架构的六个代码推理任务系列，涉及 16 个模型。所有四种结果在每个任务系列中都具有相当大的权重：整体已解决率仅为 41.5%，多个任务的准确率低于 30%。对结构、深度和运算符的控制性测试揭示了特定任务的失败瓶颈：函数调用的已解决率随着调用深度从 1 增加到 3 时，从 61.1% 陡降至 2.5%。在各种架构和规模下，酝酿框架保持稳定，所有 16 个模型的标准化酝酿持续时间为 24-42%，而解决成功率则因能力而异。这表明该框架在测试的解码器-only Transformer 家族中是一个稳定的经验规律，而解决成功率则与能力、规模和训练相关。

代码

GitHub Repository

博主点评： 该研究揭示了 LLM 在代码推理中的复杂性，尤其是其内部生命周期如何影响最终结果。通过引入新的评估框架，研究者提供了对模型性能更深层次的理解，强调了传统准确性指标的局限性。这样的探索对于未来的模型优化和应用具有重要意义。