[AI学术] RetailBench：评估LLM代理在零售环境中的长期决策能力

摘要

大型语言模型（LLM）代理在短期、明确任务上取得了快速进展，但它们在动态的长期环境中维持一致决策的能力仍不确定。我们引入了RetailBench，这是一个基于数据的仿真基准，用于评估在单店超市运营中的工具使用LLM代理。

RetailBench将零售管理建模为一个部分可观察的决策过程，旨在支持千天规模的仿真。在这个环境中，代理必须管理价格、补货、供应商选择、货架组合、库存老化、客户反馈、外部事件和现金流限制。我们在180天的评估周期内评估了七种当代LLM，并与特权的oracle策略进行比较。

结果显示模型间存在显著差异：只有一小部分模型能够在完整的评估周期内生存，甚至最强的LLM在最终净资产和销售结果上仍显著落后于oracle策略。行为分析将这些差距归因于不完整的证据获取、表面决策以及缺乏一致的长期策略。RetailBench为研究经济驱动的长期决策中的可靠自主性提供了一个受控的测试平台。

博主点评： RetailBench的推出为评估LLM在复杂、动态环境中长期决策能力提供了新视角。尽管当前模型表现不尽如人意，但这一基准的建立将推动未来研究的深入，尤其是在提高模型的决策一致性和信息获取能力方面。它为研究人员提供了一个宝贵的工具，以探索如何使LLM在现实世界应用中更加可靠。