[AI学术] 揭秘新兴AI加速器在LLM推理中的表现与效率

随着大型语言模型（LLMs）在延迟和成本敏感的场景中越来越多地被部署，推理效率成为了一个核心系统挑战。虽然当前的部署主要依赖于GPU，但越来越多的AI加速器声称在LLM推理上具有优势，然而在实际应用中，尚不清楚在什么情况下这些加速器会优于GPU。最近的推理系统将执行分解为Prefill和Decode阶段，这两个阶段展现出不同的计算特性和延迟指标，通常用首次令牌时间（TTFT）和每输出令牌时间（TPOT）来衡量。

本文对LLM推理性能进行了阶段感知评估，比较了GPU和新兴AI加速器的表现，采用了统一的模型Llama2-7B。通过分别测量Prefill和Decode性能，我们揭示了不同阶段和指标下加速器的优势差异。我们的结果显示，GPU在计算密集的Prefill阶段持续表现优异，而GroqRack在Decode阶段的TPOT显著低（当前不支持批处理）。然而，随着批量大小的增加，GPU在Decode吞吐量上重新获得了优势。这些发现表明，每个平台在不同阶段展现出独特的相依强项。我们进一步分析了不同加速器平台上异构的Prefill/Decode分解，识别出性能提升以及实现这些提升的工作负载和网络条件。

博主点评： 这项研究为理解新兴AI加速器在LLM推理中的表现提供了重要见解，特别是在不同阶段的性能对比中，揭示了GPU与加速器的相对优势，未来或将影响硬件选择和应用部署策略。