[AI学术] 去中心化的LLM推理：在P2P网络上的新方案

在大型语言模型（LLM）的推理过程中，前缀缓存能够通过重用共享提示的KV缓存来降低推理延迟。然而，由于缓存在节点之间的分区，集群级别的重用面临挑战。本文提出了一种去中心化的、前缀缓存感知的路由方案，用于P2P LLM服务。

每个节点维护一个本地的基数树（radix tree），存储自身缓存的前缀，并通过定期的反熵（anti-entropy）异步更新对等节点缓存的估计。请求将被路由到具有最长估计前缀匹配的节点，整个过程无需集中协调或KV缓存传输。过时的元数据只会导致缓存未命中，而不会产生错误输出，因此弱一致性对于正确性是足够的。

在模拟的MMLU工作负载上进行的评估表明，在低通信延迟和偏斜的前缀分布下，去中心化路由能显著改善延迟。然而，高网络延迟和亲和性引起的热点则限制了其效益。

博主点评： 该研究展示了去中心化路由在LLM推理中的潜力，尤其是在优化缓存利用率方面。但在实际应用中，网络延迟和节点分布的影响仍需进一步探索，以确保系统的可扩展性和效率。