摘要
大型语言模型(LLMs)越来越多地被部署在边缘云推理系统中,以处理具有不同准确性、延迟和成本特征的用户任务。为每个传入任务选择合适的LLM对于确保服务质量和高效资源利用至关重要。然而,模型的异质性、随机且未知的性能特征以及时间变化的任务需求使得静态选择策略显得不足。现实部署中通常会施加硬性资源预算,如资金支出限制,以及软性服务水平要求,如延迟保障。这些约束为在线决策带来了额外挑战。
我们将此问题表述为一个受限随机带宽学习任务,学习者在满足打包型(硬性)和覆盖型(软性)约束的同时,顺序选择模型,并适应时间变化的任务需求。学习者在没有访问基础奖励、成本或延迟分布的情况下,依赖部分反馈进行决策。我们开发了一种新颖的在线学习算法,利用置信界估计和需求预测,在奖励最大化与长期约束满足之间取得平衡。我们提供了理论保证,表明与具有完全信息的离线基准相比,存在次线性后悔和次线性覆盖约束违规。
在合成工作负载上的实验结果展示了我们的方法在动态资源受限环境中的有效性和鲁棒性。
博主点评: 本文通过将大语言模型的选择问题建模为受限随机带宽学习,为动态需求下的实时决策提供了新思路。理论与实验结果的结合使其在实际应用中具有较高的参考价值,尤其是在资源受限的边缘计算场景中。