NeFut Logo NeFut
EN 管理员登录

[AI学术] 去中心化的LLM推理:在P2P网络上的新方案

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:47
#AI #optimization #Open Source

在大型语言模型(LLM)的推理过程中,前缀缓存能够通过重用共享提示的KV缓存来降低推理延迟。然而,由于缓存在节点之间的分区,集群级别的重用面临挑战。本文提出了一种去中心化的、前缀缓存感知的路由方案,用于P2P LLM服务。

每个节点维护一个本地的基数树(radix tree),存储自身缓存的前缀,并通过定期的反熵(anti-entropy)异步更新对等节点缓存的估计。请求将被路由到具有最长估计前缀匹配的节点,整个过程无需集中协调或KV缓存传输。过时的元数据只会导致缓存未命中,而不会产生错误输出,因此弱一致性对于正确性是足够的。

在模拟的MMLU工作负载上进行的评估表明,在低通信延迟和偏斜的前缀分布下,去中心化路由能显著改善延迟。然而,高网络延迟和亲和性引起的热点则限制了其效益。

博主点评: 该研究展示了去中心化路由在LLM推理中的潜力,尤其是在优化缓存利用率方面。但在实际应用中,网络延迟和节点分布的影响仍需进一步探索,以确保系统的可扩展性和效率。

原文链接: https://arxiv.org/abs/2606.17059

[h] 返回首页