[AI学术] VeriGeo：可控几何题生成与数值和解析验证的完美结合

摘要

几何问题生成对于 AI 辅助教育和多模态数学推理非常重要，但可靠的合成仍然困难，因为问题陈述、图示、约束和解答必须相互一致。现有方法往往在可控性和可靠性之间进行权衡：基于种子的重写灵活但可验证性较弱，而图示优先构建提高了有效性，但不适合任意用户指定的约束。

我们提出了 VeriGeo，这是一个基于可执行推理轨迹的可控几何生成框架。给定用户约束，如目标概念和难度，作者代理生成问题和图示，求解代理提供与证明对齐的解决方案。两个代理使用共享的动作序列，将自然语言、图示、几何约束和证明步骤连接成可验证的表示。

一个三阶段的管道检查数值一致性、解析可实现性和全局一致性，使用验证引导的反思来修复可恢复的失败，并拒绝不可恢复的失败。在五个 LLM 骨干上，原始生成经常未能通过这些检查，而 VeriGeo 修复了大量无效尝试。在 8.7k 个由 VeriGeo 生成的示例上进行的监督微调，达到了在端到端多模态 LLM 基于求解器中的最佳 GeoQA 性能，并在 PGPS9K 和 MathVista-GPS 上取得了良好结果，展示了验证合成数据在提高多模态几何推理中的有效性。

博主点评： VeriGeo 的创新在于其通过可执行推理轨迹实现了几何问题的可控生成，并通过三阶段验证管道确保了生成内容的可靠性。这一方法不仅提升了 AI 在教育领域的应用潜力，也为多模态推理任务奠定了坚实的基础。