摘要
战略推理在不确定性下对谈判、金融和政策等重要决策至关重要,但现有的游戏基准将多样化的推理维度简化为单一标量,导致前沿LLM的能力结构未得到充分检视。
我们推出了扑克竞技场,这是一个无限注德州扑克锦标赛平台,结合了三层记忆架构(手牌内记忆、会话记忆和跨会话记忆),并通过九个轴心的认知特征将战略推理分解为可解释的维度,如下注大小校准和位置意识。
我们在50场比赛中对七个前沿模型进行了评估,每场比赛包含1000手牌,并进行了受控的记忆消融实验;比赛筹码和综合轴心得分对选手的排名产生了不同的影响:Claude Opus 4.6赢得了+15,730筹码并获得14次第一名,但在平均轴心得分上仅排第七名中的第五位。
持久性记忆对某些模型有帮助,而对其他模型则有负面影响。这些发现表明,多轴评估方法揭示了能力结构,而标量排行榜则系统性地错误排名,跨维度一致性往往超过了在任何单一轴心上的峰值表现。
博主点评: 这一研究通过扑克竞技场的设计,为评估LLM的战略推理能力提供了全新的视角。多轴评估方法的引入,有助于更准确地理解不同模型的能力结构,强调了记忆在复杂决策中的重要性。这为未来的AI模型开发提供了宝贵的指导,尤其是在处理不确定性和多维度决策时。