在无需训练的口头强化学习中,LLM代理通过从世界反馈中学习,例如动态任务结果、市场回报或需求预测,提取口头规则并将其注入上下文,从而更新代理的行为,而无需更改参数。
然而,在非平稳环境中,这些代理面临着保留与遗忘的困境:保留过时的洞察会导致负迁移,而丢弃它们则会在条件重复时导致灾难性遗忘。
我们确定了四个应对这一困境的要求——以结果为驱动的评估、持续的结构化证据、非单调知识生命周期和组合治理,并表明现有方法在经验提取方面投入过多,而在洞察治理方面则投入不足。
我们提出了一种三层架构——规则、证据和技能——通过一个基于反馈的策展循环连接,填补治理的空白。规则捕捉来自世界结果的提炼经验;证据日志跟踪每条规则在各个回合中的可靠性;技能则负责管理应用哪些规则、如何解决冲突以及何时应当放弃。
以金融预测为案例研究,世界反馈自然丰富、嘈杂且非平稳,我们表明,积累的经验可能会使性能低于零-shot基准,或在存在策展循环的情况下显著提高准确性和风险调整后的回报。
博主点评: 本文提出的三层架构有效应对了口头强化学习中的保留与遗忘问题,强调了治理在经验利用中的重要性。通过引入反馈驱动的策展循环,能够更有效地管理和应用经验,尤其是在复杂和动态的金融环境中,展现出较大的应用潜力。