摘要
前沿的推理调优语言模型在深度推理任务上仍然存在不足,通过扩展内部推理提升性能的成本也在急剧上升。符号委托提供了一条互补的路径:语言模型负责翻译问题,而求解器进行推理。然而,目前的逻辑编程自动形式化流程通常是针对特定任务或代理的定制集成。
我们提出了PrologMCP,一个任务无关的开源服务器,通过模型上下文协议(MCP)将Prolog暴露为一个有状态的工具。其紧凑的工具接口、结构化的错误报告和每会话隔离使得翻译-运行-检查-修复循环成为MCP兼容代理的可重用原语。
我们评估了一个增强了PrologMCP的形式化代理与标准和推理LLM(Claude Sonnet 4.6、GPT-4.1和o4-mini)在PARARULE-Plus的两个子集上的表现:一个通用样本和一个更具挑战性的样本,后者针对自然语言推理的特定失败模式。
在通用样本中,形式化代理的准确率与推理LLM相当或更高(准确率1.00对比1.00 / 0.998),与标准模型相比(GPT-4.1为0.762)获得了最大的提升。在具有挑战性的子集中,形式化代理保持近乎完美(1.00 / 0.99),而推理LLM下降至0.95 / 0.94。这些结果表明,通过MCP将推理委托给Prolog是一种强大且可检查的替代方案,优于扩展的自然语言推理。
博主点评: PrologMCP的提出为LLM代理提供了一个高效的推理替代方案,尤其在处理复杂的逻辑推理任务时,展现出其优越性。通过符号委托,模型在推理深度上的提升变得更为可控和可复用,显示了逻辑编程与现代语言模型结合的巨大潜力。