在科学实验中,直接让大语言模型(LLM)控制昂贵且不可逆转的实验可能导致不安全的探索和不稳定的表现。然而,完全放弃LLM的创造力又会牺牲重要的优化潜力。为此,我们提出了CARE(Controlling LLM-Generated Policies through Auditable Review of Evidence in Scientific Experimentation),这是一种可审核的控制器,用于高通量实验(HTE)优化。该方法保持了非LLM优化器作为默认行动路径,同时利用LLM修订挑战者排名政策。
在每次结果揭示之前,公共证据干预门会比较挑战者与现任优化器。只有在可用证据支持变更时,才会授权选择挑战者,并将该决策记录在审计日志中。根据Minerva/Olympus和ChemLex基准测试,CARE在所有评估方法中表现最佳,最终在Minerva/Olympus上的最佳结果从80.0提升至88.5,在ChemLex上从83.9提升至92.1,相对于公共现任优化器的表现。
我们的实验表明,在可审核控制器下扩展提案空间时,LLM自我进化的可靠性更高,而不是直接选择实验。
博主点评: CARE方法通过引入可审核的控制机制,成功平衡了LLM的创造力与实验的安全性,展示了在科学探索中如何有效利用人工智能的潜力。其在基准测试中的优异表现,表明了这一方法在高通量实验优化中的实际应用价值。