NeFut Logo NeFut
EN 管理员登录

[AI学术] UrbanWell:多模态大型语言模型在城市幸福感分析中的基准测试

发布于:2026-06-17 22:00
#AI #Benchmark #Urban

摘要

理解城市幸福感需要整合异构的空间和时间信号,这对当前的多模态大型语言模型(MLLMs)提出了重大挑战。我们推出了 UrbanWell,这是一个大规模基准测试,旨在系统评估 MLLMs 在城市幸福感分析中的时空推理能力,特别是通过联合建模卫星和街景图像。

UrbanWell 涵盖了 38 个城市及多个年份,并包含多种指标,包括:

  1. 环境条件(CO$_2$、NO$_2$、PM${2.5}$ 和归一化差异植被指数)
  2. 空间可达性(到超市和餐馆的最小距离)
  3. 城市形态(道路长度、道路密度和土地使用)
  4. 城市活力(人口、经济活动多样性和土地使用多样性)
  5. 主观感知属性(例如安全、美丽、生机、财富和安静)

所有指标都在网格级别对齐,以便进行标准化评估。除了静态预测外,UrbanWell 还定义了时间推理任务,包括从历史观察中预测未来值和时间趋势分类。我们在零-shot 环境下对 15 个最先进的 MLLMs 进行基准测试,提供了跨空间和时间维度的全面比较评估。

实验结果表明,尽管 MLLMs 能捕捉显著的空间和感知线索,但它们在涵盖环境和主观感知的异构城市指标上的表现差异显著。UrbanWell 作为评估城市幸福感分析中多模态时空推理的统一基准,提供了一个标准化的测试平台,便于系统评估和未来的多模态城市智能研究。

我们的代码和数据集可通过 UrbanWell-Benchmark 获取。

博主点评: UrbanWell 为多模态语言模型在城市幸福感分析中的应用提供了重要的基准,展现了时空推理的复杂性和多样性。通过对不同城市和指标的深入分析,未来的研究可以更好地理解城市动态,并推动更智能的城市规划和管理。

原文链接: https://arxiv.org/abs/2606.15890

[h] 返回首页