[AI学术] 揭示假设冗余下的发现瓶颈：几何理论的深刻洞见

摘要

科学发现会在新假设无法提供独立信息时达到饱和，尽管名义上的假设空间仍然庞大。我们研究了结合结构化局部搜索与 LLM 生成的非局部提案的混合发现系统，并提出了搜索压缩假设：非局部探索仅在三种几何条件同时发生时才有效：谱压缩、从已探索范围的正交逃逸，以及与目标的残余信号对齐。

我们形式化了这些条件，推导出混合优势的必要条件，并在受控的合成环境、大规模 A 股因子发现和符号回归基准中测试该机制；一个公共的表格操作合理性检查测试了相关的预算分配影响。信号植入和定向与随机实验表明，单靠新颖性是不够的：随机正交跳跃虽然扩展了覆盖范围，但在没有预测对齐的情况下并未提高产量。

在压缩扫描、真实因子档案和 LLM-SRBench 任务中，混合收益集中在弱表示但具有目标的方向上，并在假设空间接近满秩时消失。该框架将 LLM 引导的发现从通用的新颖性搜索转变为一种诊断程序，用于决定何时需要定向的非局部探索。

博主点评： 本文提出了一种新颖的几何理论，深入探讨了科学发现中的假设冗余问题，强调了在探索过程中方向性与对齐的重要性。这为未来的研究提供了重要的理论基础，尤其是在利用 LLM 进行复杂问题解决时。