NeFut Logo NeFut
EN 管理员登录

[AI学术] UP-NRPA:基于用户画像的嵌套策略自适应框架,提升对话系统表现

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:15
#AI #Machine Learning #LLM

摘要

为了解决当前对话策略规划方法在动态适应用户特征方面的挑战,本文提出了一种基于用户画像的嵌套策略自适应(UP-NRPA)在线框架,结合大型语言模型。与传统依赖于模型训练和离线强化学习策略模型的做法不同,UP-NRPA通过自适应机制实现了对对话策略的动态定制。

该机制利用实时用户反馈,以及从当前用户画像中映射的个性、偏好和目标,从而在无需离线强化学习的情况下,适应用户特征。在协作和非协作对话基准测试中,UP-NRPA展示了显著的优势,在多个对话任务中取得了令人印象深刻的100%成功率。尤其是在谈判任务中,销售与列表比率(SL)提高了56.41%。这表明UP-NRPA能够在不依赖训练机制的情况下,适应多样化的用户需求,使对话系统能够灵活应对用户特征。

博主点评: UP-NRPA框架通过实时调整对话策略,成功解决了传统方法的局限性,展示了在多样化用户需求下的强大适应能力,预示着对话系统未来的广阔应用前景。该方法的成功实施可能为人机交互带来新的突破。

原文链接: https://arxiv.org/abs/2606.13683

[h] 返回首页