[AI学术] 扑克竞技场：深度解析LLM中的战略推理与记忆结构

摘要

战略推理在不确定性下对谈判、金融和政策等重要决策至关重要，但现有的游戏基准将多样化的推理维度简化为单一标量，导致前沿LLM的能力结构未得到充分检视。

我们推出了扑克竞技场，这是一个无限注德州扑克锦标赛平台，结合了三层记忆架构（手牌内记忆、会话记忆和跨会话记忆），并通过九个轴心的认知特征将战略推理分解为可解释的维度，如下注大小校准和位置意识。

我们在50场比赛中对七个前沿模型进行了评估，每场比赛包含1000手牌，并进行了受控的记忆消融实验；比赛筹码和综合轴心得分对选手的排名产生了不同的影响：Claude Opus 4.6赢得了+15,730筹码并获得14次第一名，但在平均轴心得分上仅排第七名中的第五位。

持久性记忆对某些模型有帮助，而对其他模型则有负面影响。这些发现表明，多轴评估方法揭示了能力结构，而标量排行榜则系统性地错误排名，跨维度一致性往往超过了在任何单一轴心上的峰值表现。

博主点评： 这一研究通过扑克竞技场的设计，为评估LLM的战略推理能力提供了全新的视角。多轴评估方法的引入，有助于更准确地理解不同模型的能力结构，强调了记忆在复杂决策中的重要性。这为未来的AI模型开发提供了宝贵的指导，尤其是在处理不确定性和多维度决策时。