NeFut Logo NeFut
EN 管理员登录

[AI学术] 扑克竞技场:深度解析LLM中的战略推理与记忆结构

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:15
#algorithm #AI #Machine Learning

摘要

战略推理在不确定性下对谈判、金融和政策等重要决策至关重要,但现有的游戏基准将多样化的推理维度简化为单一标量,导致前沿LLM的能力结构未得到充分检视。

我们推出了扑克竞技场,这是一个无限注德州扑克锦标赛平台,结合了三层记忆架构(手牌内记忆、会话记忆和跨会话记忆),并通过九个轴心的认知特征将战略推理分解为可解释的维度,如下注大小校准和位置意识。

我们在50场比赛中对七个前沿模型进行了评估,每场比赛包含1000手牌,并进行了受控的记忆消融实验;比赛筹码和综合轴心得分对选手的排名产生了不同的影响:Claude Opus 4.6赢得了+15,730筹码并获得14次第一名,但在平均轴心得分上仅排第七名中的第五位。

持久性记忆对某些模型有帮助,而对其他模型则有负面影响。这些发现表明,多轴评估方法揭示了能力结构,而标量排行榜则系统性地错误排名,跨维度一致性往往超过了在任何单一轴心上的峰值表现。

博主点评: 这一研究通过扑克竞技场的设计,为评估LLM的战略推理能力提供了全新的视角。多轴评估方法的引入,有助于更准确地理解不同模型的能力结构,强调了记忆在复杂决策中的重要性。这为未来的AI模型开发提供了宝贵的指导,尤其是在处理不确定性和多维度决策时。

原文链接: https://arxiv.org/abs/2606.13815

[h] 返回首页