[AI学术] 当可信与现实不符：评估基于LLM的城市模拟中的人类移动性

在城市模拟中，基于LLM的生成代理越来越多地被使用，但它们是否能够真实再现人类的移动模式仍不明确。为此，我们引入了一种验证框架，评估基于LLM的城市模拟器生成代理的人类移动性，并与真实的移动数据进行对比。我们采用了移动规律、时间节奏、网络结构、语义活动转移和行为移动特征等多种指标。

通过对大巴黎地区和上海的数据集进行评估，我们分析了AgentSociety和CitySim在多个移动现实维度上的表现。分析结果显示，叙述的可信性与经验移动现实之间存在显著差距。尽管这些模拟器能够捕捉一些高层次的语义活动分布，但在再现核心的空间和时间约束方面表现不佳，包括真实的行程长度分布、起止点流量、停留时间和转移动态。

我们还观察到，现实的移动多样性在默认提示配置中不稳定，可能需要显式的配置初始化。为了支持可重复的评估，我们还贡献了可扩展和开放的基于LLM的基础设施，用于区域规模的地图生成、增强可观察性的模拟、移动指标计算和交通模拟。

我们的发现强调了对基于LLM的城市模拟器进行严格的经验验证的必要性，并提供了构建更现实和可重复的城市模拟系统的实用工具。

博主点评： 本文深入探讨了LLM在城市模拟中的应用，指出了当前技术在移动性真实性上的不足，强调了经验验证的重要性，推动了未来研究的方向。