NeFut Logo NeFut
EN 管理员登录

[AI学术] 掌控LLM生成政策:科学实验中的可审核证据审查

发布于:2026-06-16 22:00 最后更新:2026-06-17 01:38
#AI #Machine Learning #optimization

在科学实验中,直接让大语言模型(LLM)控制昂贵且不可逆转的实验可能导致不安全的探索和不稳定的表现。然而,完全放弃LLM的创造力又会牺牲重要的优化潜力。为此,我们提出了CARE(Controlling LLM-Generated Policies through Auditable Review of Evidence in Scientific Experimentation),这是一种可审核的控制器,用于高通量实验(HTE)优化。该方法保持了非LLM优化器作为默认行动路径,同时利用LLM修订挑战者排名政策。

在每次结果揭示之前,公共证据干预门会比较挑战者与现任优化器。只有在可用证据支持变更时,才会授权选择挑战者,并将该决策记录在审计日志中。根据Minerva/Olympus和ChemLex基准测试,CARE在所有评估方法中表现最佳,最终在Minerva/Olympus上的最佳结果从80.0提升至88.5,在ChemLex上从83.9提升至92.1,相对于公共现任优化器的表现。

我们的实验表明,在可审核控制器下扩展提案空间时,LLM自我进化的可靠性更高,而不是直接选择实验。

博主点评: CARE方法通过引入可审核的控制机制,成功平衡了LLM的创造力与实验的安全性,展示了在科学探索中如何有效利用人工智能的潜力。其在基准测试中的优异表现,表明了这一方法在高通量实验优化中的实际应用价值。

原文链接: https://arxiv.org/abs/2606.14581

[h] 返回首页