[AI学术] 分布式与复合AI系统设计方法及性能权衡管理

在人工智能（AI）系统中，通常需要满足服务级目标，包括准确性、延迟和成本。现有的以模型为中心的方法在设计时选择单一模型，并对不同输入难度应用相同的计算，这导致无法在专用组件之间分解任务，并且知识在训练时固定。这种设计在运行时可能导致性能下降和成本增加。由于模型是主要的设计变量，它决定了系统行为的大部分，将操作目标与单一设计时间选择紧密耦合。要解决这些局限性，需要从以模型为中心转向以系统为中心的设计。复合AI系统通过显式控制逻辑，将多个模型、算法和工具作为分布式AI系统进行协调，从而实现这种转变。这类系统的性能取决于工作流拓扑、分配给每个任务的模型以及控制运行时行为的参数。我们提出了一种设计方法论，从工作流拓扑和配置选择两个维度组织设计空间，并识别出八种设计模式，每种模式整合了应对单一部署特定限制的技术。我们通过三个案例研究验证了我们的方法论。在这些案例研究中，复合AI配置的准确性接近单一模型的2.5到4个百分点，同时减少了高达60%的延迟和71%的成本。我们表明，模型选择和参数配置共同决定系统性能，但由此产生的设计空间呈组合增长，因为工作流组合了更多的模式和组件。因此，我们识别出五个开放挑战，定义了从手动配置原型到能够自动发现并维护复合和分布式AI系统SLO合规性的系统的路线图。

博主点评： 本文提出了一种创新的设计方法，强调从模型中心转向系统中心的重要性，尤其在多模型协调方面。通过案例分析，展示了复合AI系统在性能和成本上的显著优势，值得在实际应用中深入探索。