[AI学术] 长网页生成评估新基准：LongWebBench的革命性探索

摘要

近期，视觉语言模型（VLMs）在从视觉输入生成网页方面取得了显著进展，但现有评估主要集中于短小、单屏且大多静态的网页。我们引入了LongWebBench，这是一个用于评估长时间跨度网页生成的基准，涵盖结构和功能两个方面。

LongWebBench包含490个现实世界的长网页用于结构保真度评估，以及129个网页上的507个目标导向的交互任务用于功能评估。它采用了两种互补的协议：一种基于多维度VLM的指标，用于评估长程结构一致性；另一种是增强DOM的基于代理的管道，用于端到端的功能验证。我们进一步通过人类一致性分析检查自动评估协议。

针对单图像和多图像设置下的最先进开源和专有VLM进行的实验表明，随着网页长度的增加，结构保真度会下降，而视觉上合理的生成往往无法支持可执行的多步交互。这些结果突显了在评估长网页生成时，除了视觉相似性之外，还需将可执行交互作为核心标准。

我们的代码和数据可在 GitHub 上获取。

博主点评： LongWebBench的推出标志着网页生成评估的一个重要进步，尤其是在长网页生成的实际应用场景中。通过结构和功能的双重评估，能够更全面地理解VLM在复杂交互中的表现，推动未来研究的深入发展。