[AI学术] 前缀缓存的革新：可编辑与可组合的 KV 缓存

在前缀缓存中，预填充仅在完全共享的前缀间重用，因此一旦某一字段发生变化，整个下游缓存就会失效。然而，若覆盖字段的键/值向量并重用其余部分，模型依然会基于旧值进行操作。经过四个模型家族的因果验证，发现这一现象的根本原因在于：在预填充阶段，模型已经将字段条件下的结论写入下游笔记，而该字段的键/值对决策的影响不足1%。

作为一个备忘录的笔记，提出了两项能力：(1) 可编辑性。显著的更正能够修正笔记；利用链式思维（CoT），仅编辑该字段就能恢复决策（8B模型下准确率为1.00，计算量约1%），而不使用CoT则会被忽略。(2) 可组合性。这些笔记是位置可移动的，因此预编译的技能可以经过 RoPE 重新定位并拼接到任何上下文中，与完全重新计算无异（logit 余弦相似度在0.90-0.999之间，验证了十二个模型），且时间复杂度为 O(L) 而非 O(L^2)。统一的编辑+组合代理在高达14.9倍更低的延迟下保持与重新计算相同的决策。

该方法适用于任何每个令牌注意力的 KV 缓存，经过规模、量化、专家混合和多模态缓存的验证，并通过小型适配器扩展到多种注意力变体。由于更正是追加式的，它与生产前缀缓存相结合：在在线 vLLM 基准测试中，保持前缀缓存对齐（命中率为98.5%），将 p90 的首次令牌时间缩短了53-398倍。