[AI学术] 利用认知模型提升语言模型在说服游戏中的表现

摘要

在战略互动中，人们的决策方式各不相同。有些人像贝叶斯一样更新信念，而另一些人则表现出动机推理等偏见。尽管大型语言模型的创建者使用模拟人类进行安全评估和训练，但他们往往未能涵盖人类行为的广泛性。我们认为，认知科学和经济学提供了一种便捷的工具来实现这一目标，利用人类决策的数学模型。

我们提出了一种名为“方程到行为提示”（Equation-to-Behavior Prompting）的方法，指导大型语言模型匹配认知模型，并在基于法律决策的说服游戏中评估该方法。我们发现，通过提示，大型模型能够近似方程基础规范——贝叶斯更新、仿射失真、动机更新和Grether的 $\alpha$-$\beta$ 模型，而小模型则无法做到。然而，通过强化学习训练小模型以遵循数学规则（即“方程到行为强化学习”，Equation-to-Behavior RL），在分布外参数化中减少信念误差达26.5%。

我们展示了这些模拟可以帮助创建多样化的训练环境；训练小模型考虑不同类型的决策者使得平均信念变化比仅进行贝叶斯训练提高了2.5%到12%，即使是在说服GPT-5-mini时。我们的工作可能改善人类模拟，以便在日益真实的环境中进行训练和评估，并可能启发对更复杂的人类决策数学模型的新研究。

博主点评： 本文通过结合认知模型与语言模型的训练，展示了如何更真实地模拟人类决策过程。这一方法不仅推动了语言模型的应用边界，也为未来的研究提供了新的视角，尤其在法律与心理学交叉领域的应用潜力巨大。