[AI学术] 重磅研究：基于序列模型的符号性推理新基准

摘要

大型语言模型在符号和算法任务上表现出色，但这种表面强大可能隐藏着在问题变得更长、更难或稍微超出分布时的脆弱性。目前的推理基准的一个主要局限性在于，许多基准主要测试模型是否能够产生有效答案，而较少关注解决方案的最小性、鲁棒性和在控制难度缩放下的稳定性。

我们推出了 RecurrReason，这是一种控制难度的基准，包含四个递归逻辑难题（汉诺塔、过河、方块世界和跳棋），具有 BFS 最优轨迹和一个可解释的难度参数 $N \in \{1,\dots,10\}$，共计 10{,}817 个独特难题和 285{,}933 次移动。我们在一致的数据划分和评估标准下，对两种 Transformer 家族进行了基准测试：一种编码-解码模型（T5 风格）和一种仅解码模型（GPT-2 风格），训练阶段为 $N{=}1$ 到 $7$，评估阶段则包括保留的内部分布实例和在 $N{=}8$ 到 $10$ 的更难的外部分布实例。

经过微调的预训练 T5 在方块世界上达到了 97.27% 的验证准确率和 81.00% 的 OOD 准确率；而在所有条件下，所有模型在过河任务上的得分均为 0.00%。失败模式分析揭示，架构是成功的更强决定因素，而非规模。预训练仅对具有局部结构转移函数的难题有效。我们的代码和数据集将在接受后开源。

博主点评： 本研究通过提出 RecurrReason 基准，填补了现有模型在复杂推理任务中的不足，强调了推理的有效性和鲁棒性。尤其是对模型架构与性能之间关系的分析，为未来的模型设计提供了重要的参考。开源的代码和数据集将促进相关领域的进一步研究和应用。