[AI学术] MiroBench: 评估代理模拟真实讨论的革命性基准

摘要

LLM代理越来越多地用于模拟现实世界的互动，但尚不清楚这些模拟行为是否保留了真实人类行为的内容模式和互动动态。现有评估方法零散，这使得系统之间的比较和进展的测量变得困难。本文以Reddit讨论为切入点，作为评估现实社会模拟的具体第一步。

Reddit线程提供了公共的、基于主题的多方互动，用户分享经验、辩论、寻求建议、表达情感，并集体响应产品、事件和社会问题。这些讨论为观察更广泛的社会行为提供了窗口，使其成为测试LLM代理是否能够再现流畅文本以及真实在线社区的分布模式和互动动态的有用环境。

我们引入了MiroBench，这是一个基于4292个真实Reddit线程构建的Reddit讨论模拟基准。MiroBench使用统计测试比较生成讨论和真实讨论在四个主要方面的表现：重复性和语义一致性、叙事内容、毒性和攻击性，以及结构复杂度。实验涵盖五个领域和五个模型，结果显示当前模拟器与真实Reddit线程在分布上存在不匹配，而一种轻量级基于提示的改进程序仅提供有限的提升。

MiroBench为测量、诊断和改进基于LLM的社会模拟的真实性提供了一个具体的基准。

博主点评： MiroBench的提出为当前LLM代理的模拟能力提供了重要的评估框架，尤其是在真实社交互动的再现方面。通过基于真实数据的系统比较，研究人员能够更好地识别和改善现有模型的不足之处，推动社交模拟技术的进一步发展。