[AI学术] 打破反馈循环：从经验提取到洞察治理的口头强化学习

在无需训练的口头强化学习中，LLM代理通过从世界反馈中学习，例如动态任务结果、市场回报或需求预测，提取口头规则并将其注入上下文，从而更新代理的行为，而无需更改参数。

然而，在非平稳环境中，这些代理面临着保留与遗忘的困境：保留过时的洞察会导致负迁移，而丢弃它们则会在条件重复时导致灾难性遗忘。

我们确定了四个应对这一困境的要求——以结果为驱动的评估、持续的结构化证据、非单调知识生命周期和组合治理，并表明现有方法在经验提取方面投入过多，而在洞察治理方面则投入不足。

我们提出了一种三层架构——规则、证据和技能——通过一个基于反馈的策展循环连接，填补治理的空白。规则捕捉来自世界结果的提炼经验；证据日志跟踪每条规则在各个回合中的可靠性；技能则负责管理应用哪些规则、如何解决冲突以及何时应当放弃。

以金融预测为案例研究，世界反馈自然丰富、嘈杂且非平稳，我们表明，积累的经验可能会使性能低于零-shot基准，或在存在策展循环的情况下显著提高准确性和风险调整后的回报。

博主点评： 本文提出的三层架构有效应对了口头强化学习中的保留与遗忘问题，强调了治理在经验利用中的重要性。通过引入反馈驱动的策展循环，能够更有效地管理和应用经验，尤其是在复杂和动态的金融环境中，展现出较大的应用潜力。