NeFut Logo NeFut
EN 管理员登录

[AI学术] 揭秘新兴AI加速器在LLM推理中的表现与效率

发布于:2026-06-18 22:00 最后更新:2026-06-20 13:47
#AI #optimization #LLM

随着大型语言模型(LLMs)在延迟和成本敏感的场景中越来越多地被部署,推理效率成为了一个核心系统挑战。虽然当前的部署主要依赖于GPU,但越来越多的AI加速器声称在LLM推理上具有优势,然而在实际应用中,尚不清楚在什么情况下这些加速器会优于GPU。最近的推理系统将执行分解为Prefill和Decode阶段,这两个阶段展现出不同的计算特性和延迟指标,通常用首次令牌时间(TTFT)和每输出令牌时间(TPOT)来衡量。

本文对LLM推理性能进行了阶段感知评估,比较了GPU和新兴AI加速器的表现,采用了统一的模型Llama2-7B。通过分别测量Prefill和Decode性能,我们揭示了不同阶段和指标下加速器的优势差异。我们的结果显示,GPU在计算密集的Prefill阶段持续表现优异,而GroqRack在Decode阶段的TPOT显著低(当前不支持批处理)。然而,随着批量大小的增加,GPU在Decode吞吐量上重新获得了优势。这些发现表明,每个平台在不同阶段展现出独特的相依强项。我们进一步分析了不同加速器平台上异构的Prefill/Decode分解,识别出性能提升以及实现这些提升的工作负载和网络条件。

博主点评: 这项研究为理解新兴AI加速器在LLM推理中的表现提供了重要见解,特别是在不同阶段的性能对比中,揭示了GPU与加速器的相对优势,未来或将影响硬件选择和应用部署策略。

原文链接: https://arxiv.org/abs/2606.17104

[h] 返回首页