在大型语言模型(LLM)的推理过程中,前缀缓存能够通过重用共享提示的KV缓存来降低推理延迟。然而,由于缓存在节点之间的分区,集群级别的重用面临挑战。本文提出了一种去中心化的、前缀缓存感知的路由方案,用于P2P LLM服务。
每个节点维护一个本地的基数树(radix tree),存储自身缓存的前缀,并通过定期的反熵(anti-entropy)异步更新对等节点缓存的估计。请求将被路由到具有最长估计前缀匹配的节点,整个过程无需集中协调或KV缓存传输。过时的元数据只会导致缓存未命中,而不会产生错误输出,因此弱一致性对于正确性是足够的。
在模拟的MMLU工作负载上进行的评估表明,在低通信延迟和偏斜的前缀分布下,去中心化路由能显著改善延迟。然而,高网络延迟和亲和性引起的热点则限制了其效益。
博主点评: 该研究展示了去中心化路由在LLM推理中的潜力,尤其是在优化缓存利用率方面。但在实际应用中,网络延迟和节点分布的影响仍需进一步探索,以确保系统的可扩展性和效率。