[AI学术] 突破性基准：MapSatisfyBench评估满意度导向地图代理的能力

随着大型语言模型代理越来越多地集成到地图服务中，用户在日常生活中常常以非正式的方式表达需求，导致查询内容不明确，隐含决策因素对用户满意度至关重要。

虽然澄清问题是一种有效的解决方案，但它增加了用户在日常互动中的负担，因此一个有能力的代理应首先主动从可用的信息源中恢复这些因素。然而，评估这一能力面临挑战。

首先，需确定哪些隐含决策因素适合评估。只有在影响用户接受度并且可以从代理在回应之前获得的信息中恢复的因素，才是可评估的。

其次，用户满意度无法通过单一的参考答案可靠表示，需要一个基准将相关因素转化为客观和可量化的评估目标。

为了解决这些挑战，我们提出了一个恢复-识别-过滤框架，从行为链证据中重建完整的用户需求，识别隐含决策因素，并仅保留那些由查询前证据支持的因素。

基于这一方法，我们构建了MapSatisfyBench，利用大规模、真实的匿名用户数据，并从五个维度标注了真实情况，支持满意度导向地图代理的全链评估。

实验表明，当前的代理在显式任务完成上表现良好，但在满足隐含决策因素和主动获取所需证据以作出满意度导向决策方面仍然有限。

这些发现确立了MapSatisfyBench作为一个基准，将地图代理的评估从任务完成转向满意度导向的空间决策。

博主点评： 该研究为地图服务中的用户满意度提供了新的评估框架，强调了隐含决策因素的重要性，推动了相关领域的前沿发展。未来的地图代理需要在用户交互中更积极地挖掘这些因素，以提升服务质量。