NeFut Logo NeFut
EN 管理员登录

[AI学术] 前缀缓存的革新:可编辑与可组合的 KV 缓存

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:47
#algorithm #optimization #C++

在前缀缓存中,预填充仅在完全共享的前缀间重用,因此一旦某一字段发生变化,整个下游缓存就会失效。然而,若覆盖字段的键/值向量并重用其余部分,模型依然会基于旧值进行操作。经过四个模型家族的因果验证,发现这一现象的根本原因在于:在预填充阶段,模型已经将字段条件下的结论写入下游笔记,而该字段的键/值对决策的影响不足1%。

作为一个备忘录的笔记,提出了两项能力:(1) 可编辑性。显著的更正能够修正笔记;利用链式思维(CoT),仅编辑该字段就能恢复决策(8B模型下准确率为1.00,计算量约1%),而不使用CoT则会被忽略。(2) 可组合性。这些笔记是位置可移动的,因此预编译的技能可以经过 RoPE 重新定位并拼接到任何上下文中,与完全重新计算无异(logit 余弦相似度在0.90-0.999之间,验证了十二个模型),且时间复杂度为 O(L) 而非 O(L^2)。统一的编辑+组合代理在高达14.9倍更低的延迟下保持与重新计算相同的决策。

该方法适用于任何每个令牌注意力的 KV 缓存,经过规模、量化、专家混合和多模态缓存的验证,并通过小型适配器扩展到多种注意力变体。由于更正是追加式的,它与生产前缀缓存相结合:在在线 vLLM 基准测试中,保持前缀缓存对齐(命中率为98.5%),将 p90 的首次令牌时间缩短了53-398倍。

原文链接: https://arxiv.org/abs/2606.17107

[h] 返回首页