[AI学术] 预算化 LLM 验证中的异方差信号：结构异质性限制优化收益

在大语言模型（LLM）系统中，越来越多地使用不确定性信号来在验证、测试时扩展、工具执行等选择性计算决策中分配有限的计算资源。这些策略依赖于一种全球信号可比性假设：相等的评分在不同输入间应具有可比的决策价值。通过预算验证作为受控诊断环境，我们识别出这一假设的失效模式：在成本层次中，不确定性质量是异方差的，某些区域尽管集中许多错误，却表现出近乎随机的可辨识性。

在明确的局部模型下，我们表征了全球分配的失真，并显示其上限与跨层次信号质量的分散程度相关。我们通过受控干预层次结构分离弱信号、优化不稳定性和结构异质性：阈值（Threshold）、MP-适应（MP-Adapt）、MP-分层（MP-Strat）以及一种故意简单的成本分层阈值干预（CST）。在使用 Qwen3-8B、LLaMA3-8B 和 GPT-4o-mini 的 MBPP 和 MATH 数据集上，全球在线适应在静态阈值下的收益不一致；MP-Strat 部分恢复了性能，而 CST 在强异质设置中提高了命中率，最多可达 17 个百分点，而无需梯度更新。这些结果表明，结构异质性而非单纯的优化器弱点是观察到的设置中的主要瓶颈。更广泛地说，反馈结构的不对齐并不总能通过更强的优化来修复。

博主点评： 本文揭示了在预算化 LLM 验证中，异方差信号对优化的影响，强调了结构异质性的重要性。通过不同的干预措施，研究者们展示了如何改善模型性能，这为未来在异质环境下的 LLM 应用提供了新的思路与方向。值得注意的是，优化策略不仅仅依赖于算法本身，还需要关注信号的质量和结构特性。