[AI学术] UP-NRPA：基于用户画像的嵌套策略自适应框架，提升对话系统表现

摘要

为了解决当前对话策略规划方法在动态适应用户特征方面的挑战，本文提出了一种基于用户画像的嵌套策略自适应（UP-NRPA）在线框架，结合大型语言模型。与传统依赖于模型训练和离线强化学习策略模型的做法不同，UP-NRPA通过自适应机制实现了对对话策略的动态定制。

该机制利用实时用户反馈，以及从当前用户画像中映射的个性、偏好和目标，从而在无需离线强化学习的情况下，适应用户特征。在协作和非协作对话基准测试中，UP-NRPA展示了显著的优势，在多个对话任务中取得了令人印象深刻的100%成功率。尤其是在谈判任务中，销售与列表比率（SL）提高了56.41%。这表明UP-NRPA能够在不依赖训练机制的情况下，适应多样化的用户需求，使对话系统能够灵活应对用户特征。

博主点评： UP-NRPA框架通过实时调整对话策略，成功解决了传统方法的局限性，展示了在多样化用户需求下的强大适应能力，预示着对话系统未来的广阔应用前景。该方法的成功实施可能为人机交互带来新的突破。