[AI学术] UrbanWell：多模态大型语言模型在城市幸福感分析中的基准测试

摘要

理解城市幸福感需要整合异构的空间和时间信号，这对当前的多模态大型语言模型（MLLMs）提出了重大挑战。我们推出了 UrbanWell，这是一个大规模基准测试，旨在系统评估 MLLMs 在城市幸福感分析中的时空推理能力，特别是通过联合建模卫星和街景图像。

UrbanWell 涵盖了 38 个城市及多个年份，并包含多种指标，包括：

所有指标都在网格级别对齐，以便进行标准化评估。除了静态预测外，UrbanWell 还定义了时间推理任务，包括从历史观察中预测未来值和时间趋势分类。我们在零-shot 环境下对 15 个最先进的 MLLMs 进行基准测试，提供了跨空间和时间维度的全面比较评估。

实验结果表明，尽管 MLLMs 能捕捉显著的空间和感知线索，但它们在涵盖环境和主观感知的异构城市指标上的表现差异显著。UrbanWell 作为评估城市幸福感分析中多模态时空推理的统一基准，提供了一个标准化的测试平台，便于系统评估和未来的多模态城市智能研究。

我们的代码和数据集可通过 UrbanWell-Benchmark 获取。

博主点评： UrbanWell 为多模态语言模型在城市幸福感分析中的应用提供了重要的基准，展现了时空推理的复杂性和多样性。通过对不同城市和指标的深入分析，未来的研究可以更好地理解城市动态，并推动更智能的城市规划和管理。