在人类模拟的互动评估和社会模拟中,大型语言模型被越来越多地应用。然而,基于帮助性的后训练使得这些模型趋向于一种同质化、过于迎合的助手风格,从而造成了行为上的Sim2Real差距。我们提出了OdysSim,这是对行为基础模型的最大规模开放系统性研究,这些模型旨在大规模模拟人类行为。
我们提出了SOUL,这是一个统一62个数据集和23个基准任务的五个能力轴的分类法(CONV, SS, COG, ROLE, EVAL)。具体而言,我们整理了OdysSim语料库(包含2140万次交互,100亿个标记,并配备生成的社交上下文),构建了SOUL-Index基准,并开发了一种结合中期训练、任务特定强化学习和专家蒸馏的端到端训练方案。
最终的开放8B OSim模型在23个任务中的8个任务上排名第一或并列第一,超越了任何单一前沿模型,其在对话和社交任务上表现出最强的提升。其输出在长度、格式和用词上也更接近人类,并且在$ au$-bench上实现了零样本迁移到分布外用户模拟,反应一致性几乎与真实用户相当(93.2 vs. 93.5)。我们进一步展示了LLM作为评判者的强化学习会引发奖励黑客模式,而我们的检测器可以在后训练中缓解这些问题。
综合来看,我们的研究结果表明,行为基础模型需要重新思考LLM的训练范式。我们将所有文档发布,以支持未来的研究。
博主点评: OdysSim的研究展示了如何通过系统性的方法来提升大型语言模型在模拟人类行为中的表现,尤其是在社交和对话任务的应用上。通过建立SOUL框架,研究者们为未来的模型训练提供了新的视角,值得关注的是如何有效缓解奖励黑客问题,这对模型的实际应用至关重要。