摘要
科学发现会在新假设无法提供独立信息时达到饱和,尽管名义上的假设空间仍然庞大。我们研究了结合结构化局部搜索与 LLM 生成的非局部提案的混合发现系统,并提出了搜索压缩假设:非局部探索仅在三种几何条件同时发生时才有效:谱压缩、从已探索范围的正交逃逸,以及与目标的残余信号对齐。
我们形式化了这些条件,推导出混合优势的必要条件,并在受控的合成环境、大规模 A 股因子发现和符号回归基准中测试该机制;一个公共的表格操作合理性检查测试了相关的预算分配影响。信号植入和定向与随机实验表明,单靠新颖性是不够的:随机正交跳跃虽然扩展了覆盖范围,但在没有预测对齐的情况下并未提高产量。
在压缩扫描、真实因子档案和 LLM-SRBench 任务中,混合收益集中在弱表示但具有目标的方向上,并在假设空间接近满秩时消失。该框架将 LLM 引导的发现从通用的新颖性搜索转变为一种诊断程序,用于决定何时需要定向的非局部探索。
博主点评: 本文提出了一种新颖的几何理论,深入探讨了科学发现中的假设冗余问题,强调了在探索过程中方向性与对齐的重要性。这为未来的研究提供了重要的理论基础,尤其是在利用 LLM 进行复杂问题解决时。