摘要
近期,视觉语言模型(VLMs)在从视觉输入生成网页方面取得了显著进展,但现有评估主要集中于短小、单屏且大多静态的网页。我们引入了LongWebBench,这是一个用于评估长时间跨度网页生成的基准,涵盖结构和功能两个方面。
LongWebBench包含490个现实世界的长网页用于结构保真度评估,以及129个网页上的507个目标导向的交互任务用于功能评估。它采用了两种互补的协议:一种基于多维度VLM的指标,用于评估长程结构一致性;另一种是增强DOM的基于代理的管道,用于端到端的功能验证。我们进一步通过人类一致性分析检查自动评估协议。
针对单图像和多图像设置下的最先进开源和专有VLM进行的实验表明,随着网页长度的增加,结构保真度会下降,而视觉上合理的生成往往无法支持可执行的多步交互。这些结果突显了在评估长网页生成时,除了视觉相似性之外,还需将可执行交互作为核心标准。
我们的代码和数据可在 GitHub 上获取。
博主点评: LongWebBench的推出标志着网页生成评估的一个重要进步,尤其是在长网页生成的实际应用场景中。通过结构和功能的双重评估,能够更全面地理解VLM在复杂交互中的表现,推动未来研究的深入发展。