摘要
大型语言模型在符号和算法任务上表现出色,但这种表面强大可能隐藏着在问题变得更长、更难或稍微超出分布时的脆弱性。目前的推理基准的一个主要局限性在于,许多基准主要测试模型是否能够产生有效答案,而较少关注解决方案的最小性、鲁棒性和在控制难度缩放下的稳定性。
我们推出了 RecurrReason,这是一种控制难度的基准,包含四个递归逻辑难题(汉诺塔、过河、方块世界和跳棋),具有 BFS 最优轨迹和一个可解释的难度参数 $N \in \{1,\dots,10\}$,共计 10{,}817 个独特难题和 285{,}933 次移动。我们在一致的数据划分和评估标准下,对两种 Transformer 家族进行了基准测试:一种编码-解码模型(T5 风格)和一种仅解码模型(GPT-2 风格),训练阶段为 $N{=}1$ 到 $7$,评估阶段则包括保留的内部分布实例和在 $N{=}8$ 到 $10$ 的更难的外部分布实例。
经过微调的预训练 T5 在方块世界上达到了 97.27% 的验证准确率和 81.00% 的 OOD 准确率;而在所有条件下,所有模型在过河任务上的得分均为 0.00%。失败模式分析揭示,架构是成功的更强决定因素,而非规模。预训练仅对具有局部结构转移函数的难题有效。我们的代码和数据集将在接受后开源。
博主点评: 本研究通过提出 RecurrReason 基准,填补了现有模型在复杂推理任务中的不足,强调了推理的有效性和鲁棒性。尤其是对模型架构与性能之间关系的分析,为未来的模型设计提供了重要的参考。开源的代码和数据集将促进相关领域的进一步研究和应用。