[AI学术] 掌控LLM生成政策：科学实验中的可审核证据审查

在科学实验中，直接让大语言模型（LLM）控制昂贵且不可逆转的实验可能导致不安全的探索和不稳定的表现。然而，完全放弃LLM的创造力又会牺牲重要的优化潜力。为此，我们提出了CARE（Controlling LLM-Generated Policies through Auditable Review of Evidence in Scientific Experimentation），这是一种可审核的控制器，用于高通量实验（HTE）优化。该方法保持了非LLM优化器作为默认行动路径，同时利用LLM修订挑战者排名政策。

在每次结果揭示之前，公共证据干预门会比较挑战者与现任优化器。只有在可用证据支持变更时，才会授权选择挑战者，并将该决策记录在审计日志中。根据Minerva/Olympus和ChemLex基准测试，CARE在所有评估方法中表现最佳，最终在Minerva/Olympus上的最佳结果从80.0提升至88.5，在ChemLex上从83.9提升至92.1，相对于公共现任优化器的表现。

我们的实验表明，在可审核控制器下扩展提案空间时，LLM自我进化的可靠性更高，而不是直接选择实验。

博主点评： CARE方法通过引入可审核的控制机制，成功平衡了LLM的创造力与实验的安全性，展示了在科学探索中如何有效利用人工智能的潜力。其在基准测试中的优异表现，表明了这一方法在高通量实验优化中的实际应用价值。