在大语言模型(LLM)系统中,越来越多地使用不确定性信号来在验证、测试时扩展、工具执行等选择性计算决策中分配有限的计算资源。这些策略依赖于一种全球信号可比性假设:相等的评分在不同输入间应具有可比的决策价值。通过预算验证作为受控诊断环境,我们识别出这一假设的失效模式:在成本层次中,不确定性质量是异方差的,某些区域尽管集中许多错误,却表现出近乎随机的可辨识性。
在明确的局部模型下,我们表征了全球分配的失真,并显示其上限与跨层次信号质量的分散程度相关。我们通过受控干预层次结构分离弱信号、优化不稳定性和结构异质性:阈值(Threshold)、MP-适应(MP-Adapt)、MP-分层(MP-Strat)以及一种故意简单的成本分层阈值干预(CST)。在使用 Qwen3-8B、LLaMA3-8B 和 GPT-4o-mini 的 MBPP 和 MATH 数据集上,全球在线适应在静态阈值下的收益不一致;MP-Strat 部分恢复了性能,而 CST 在强异质设置中提高了命中率,最多可达 17 个百分点,而无需梯度更新。这些结果表明,结构异质性而非单纯的优化器弱点是观察到的设置中的主要瓶颈。更广泛地说,反馈结构的不对齐并不总能通过更强的优化来修复。
博主点评: 本文揭示了在预算化 LLM 验证中,异方差信号对优化的影响,强调了结构异质性的重要性。通过不同的干预措施,研究者们展示了如何改善模型性能,这为未来在异质环境下的 LLM 应用提供了新的思路与方向。值得注意的是,优化策略不仅仅依赖于算法本身,还需要关注信号的质量和结构特性。