[AI学术] STREAM：多层次 LLM 推理中间件与双通道 HPC 令牌流

在大型语言模型的研究与应用中，研究人员面临着一个分散的生态系统：本地模型虽然免费且私密，但硬件限制了模型的规模和上下文窗口；而机构的 HPC 中心提供强大的 GPU 资源且不产生边际成本，但受到防火墙的限制，且设计上更适合批处理而非交互使用；商业云 API 则提供按需的前沿模型质量，但会施加重大费用和不适合敏感研究数据的数据保留政策。目前没有任何系统能够将这三者统一起来。STREAM（智能分层路由引擎）填补了这一空白，提出了四项贡献：

三层路由架构：结合本地、HPC 和云推理，并使用本地 LLM 基于复杂性判断。
双通道 HPC 流架构：将 Globus Compute 控制平面（身份验证和作业调度）与 WebSocket 中继数据平面（令牌传递）分离，通过机构防火墙实现亚秒级 TTFT（中位数 0.54 秒，相比批处理模式的 11.40 秒提升 21.1 倍），并通过端到端的 AES-256-GCM 加密确保中继操作员无法读取令牌负载。
层感知上下文摘要：防止长对话将简单查询强制推送到昂贵的层。
HPC-as-API 代理模式：将 HPC 推理暴露为与 OpenAI 兼容的终端，任何标准客户端均可调用，无需 HPC 专业知识，这一部署模式仅因第二项贡献的亚秒级 TTFT 而变得可行。

在一个跨越十个领域的 1,200 查询基准测试中，Llama 3.2 3B 在免费层的保留率达到了 85.1%。测得的 TTFT 分别为：0.26 秒（本地），0.54 秒（HPC 中继），1.68 秒（云）。

博主点评： STREAM 的多层次架构及其创新的双通道流设计显著提升了大规模语言模型的推理效率，尤其是在跨越本地与云环境的复杂场景中。这种灵活性不仅有助于研究人员更好地利用资源，还能有效保护敏感数据，展示了现代计算架构在 AI 领域的潜力。