摘要
探索性问答(EQA)在数据湖中要求LLM代理发现相关源,分析检索数据,并根据中间结果调整其行动。仅依靠端到端的准确性无法区分搜索、规划、数据分析或代理的行动策略中的失败:即它们关于下一步做什么以及何时提交答案的决策。
我们提出了SANA(搜索代理导航消融框架),这是一个诊断消融框架,将EQA任务转化为包含黄金源序列、清洗后的子问题和执行记录的运行时配置文件。SANA利用这些配置文件构建理想化的搜索、规划和数据分析工具,允许对每个组件进行消融;残余差距则是策略失败的诊断证据。
为了展示SANA作为一个可重用的评估框架,我们适配了两个最近的EQA基准:LakeQA和KramaBench,并在固定提示、预算、数据湖和运行时条件下评估了轻量级和中型代理。在这两个基准中,数据分析始终是一个瓶颈,而规划的限制相对较小。在LakeQA的大数据湖环境中,搜索是一个主要限制,但在小规模的KramaBench中则不那么明显。因此,SANA将端到端任务的准确性分解为数据湖代理失败的诊断,并允许系统地比较搜索、规划、数据分析和代理设计的进展。
博主点评: SANA框架通过详细分析数据湖中的各个环节,揭示了现有EQA代理的不足,为未来的研究提供了清晰的方向。通过这种方法,我们能够更好地理解和优化问答系统的性能。