[核心技术] AI代理通过“战舰”游戏学习更好提问技巧，突破语言模型局限

在2026年，人工智能代理的热潮前所未有。这些半自主程序能够“思考”并在客户服务和软件开发等领域执行明确定义的任务，通常利用语言模型（LMs）。然而，医学诊断和科学发现等领域要求它们在不确定环境中询问广泛的解决方案，而语言模型在这方面表现不佳。麻省理工学院计算机科学与人工智能实验室（CSAIL）和哈佛大学工程与应用科学学院（SEAS）的研究人员深入研究了语言模型在高风险环境中的主要问题。他们的测试是经典的猜测游戏“战舰”，该游戏帮助认知科学家研究人类如何寻求信息。CSAIL和SEAS的学者通过将游戏重新构建为询问和回答自然语言问题的形式，增加了一个新颖的元素。在他们的“协作战舰”游戏中，一名参与者是“船长”，负责询问隐藏船只的位置，而其队友则扮演“观察员”，实时回答这些问题。研究人员首先让40多名人类一起玩游戏，收集他们的问题和是非答案，以构建“BattleshipQA”数据集。这些结果为团队在游戏中测试最先进的语言模型（如GPT-5）和较小模型（如Llama 4 Scout）提供了有用的比较依据。研究发现，顶尖的语言模型能够在“战舰”中“击败”人类——即在较少的回合中完成游戏，但较小的系统则表现得远不如理性。主要问题是许多模型根本不擅长提出有用的问题。为了让语言模型以更有效的方式提问以揭示更多关于隐藏船只的信息，研究人员为每个模型提供了一种蒙特卡洛推理策略，该策略仔细测量每个响应的不同选项的正确性。结果是，AI模型能够在“战舰”中击败普通玩家，无论其规模如何。最显著的结果是Llama 4 Scout的提升。作为一个相对较小的语言模型，它仅能在8%的情况下击败人类。但通过对推理策略的改进，该模型在与人类的“战舰”对战中达到了82%的胜率。这种精确高效的提问方式使得该模型在成本仅为GPT-5的1%时，仍能超越这一前沿模型。此外，研究人员还缩小了人类与语言模型之间在回答问题时的差距。虽然GPT-5是一个可靠的观察员，帮助模型更快地完成游戏，但较小的系统在给出隐藏船只位置的错误答案方面表现不佳。当模型开始将问题转换为明确指示如何验证其答案的代码时（例如，询问一艘船是否在某个区域时让模型快速搜索该区域），它们的准确率平均提高了15%。麻省理工学院博士生、CSAIL研究员Gabriel Grand SM '23指出：“今天的语言模型主要优化以回答复杂查询，但不清楚它们是否学会了自己提出好问题。我们的工作表明，提问信息性问题依赖于预测和模拟世界的能力。我们发现，当我们给予代理访问‘世界模型’时，它们能够提出更好的问题并更高效地进行发现。”

团队的首要目标是让语言模型提出更好的问题。通过实施蒙特卡洛推理策略，语言模型将潜在的猜测视为单个粒子。随着观察员每次回答，显得更有效的猜测会被赋予更高的权重，类似于游戏球在每回合中膨胀或收缩。通过这种更有计算性和适应性的方式，船长可以提出提问，从观察员那里提取出更多的信息。科学家们随后转向广泛使用的编程语言Python来帮助AI观察员。船长提出的每个问题都会自动转换为编码命令。例如，像“在第一列是否有一艘跨越两行的船？”这样的问题会转化为指令，要求观察员语言模型搜索该区域并评估数字游戏棋子的宽度。通过给模型明确的指示，以其特别擅长的语言形式，每个系统给出正确答案的频率大大提高。例如，轻量级系统GPT-4o-mini的性能提升近30%，而大型模型Claude 4 Opus也提升了约8个百分点。MIT电气工程与计算机科学副教授、CSAIL首席研究员Jacob Andreas表示：“该领域在‘自动形式化’策略上取得了很多成功，即语言模型生成代码来验证其解决方案。我觉得这项工作的最令人兴奋之处在于，它为使用这些技术生成更好的解决方案打开了可能性，从而改善语言模型的探索和信息收集能力。我们期待将这项工作从科学领域扩展到编码和数学问题解决等应用。”

那么，这种方法在其他棋盘游戏中的表现如何呢？团队在“猜猜谁？”中测试了新装备的语言模型，大型和小型模型都能熟练地从100个选项中缩减出正确的隐藏角色。Llama 4 Scout成功率为30%，但经过Grand及其同事的调整后，其完成任务的成功率超过72%。与此同时，GPT-4o的成功率从62%跃升至90%。GPT-5则在每场游戏中充当观察员，以确保问题得到尽可能准确的回答。尽管语言模型在这两款游戏中取得了令人鼓舞的进展，但仍有改进的空间。例如，模型在回答复杂问题时仍比人类表现得差。OpenAI研究员、哈佛大学毕业生及合著者Valerio Pepe补充说：“GPT-5能够击败普通的‘战舰’玩家，并在我们的方法下略有提升。然而，专家玩家仍然很难被所有模型击败，这与国际象棋不同，后者即使是顶尖选手也无法战胜AI系统。”研究人员的发现表明，AI代理在“针尖对麦芒”的发现中具有未开发的潜力——在庞大的选项空间中导航以找到科学挑战的稀有解决方案。虽然改进信息寻求技能将使它们成为优秀的研究助理，比如识别化合物的分子结构，但研究人员警告称，“协作战舰”只是一个相对简单的测试平台。他们希望在更复杂的环境中测试语言模型，在这些环境中，系统必须考虑更多的选项。Grand还计划让人类与AI模型协作，研究它们是否能更好地共同工作。模型可能还受益于游戏模拟的微调，并且随着计算能力的提升，语言模型将拥有更先进的推理能力来预测游戏的演变。“随着AI系统变得更加自主，最困难的问题实际上是社会性问题：跟踪共同点、解决误解以及随着时间的推移适应不同的合作伙伴，”斯坦福大学语言学助理教授Robert Hawkins表示，他没有参与这篇论文的写作。“这项工作优雅地捕捉了这些现象，并在一个受控的协作环境中提出了有力的论点，认为AI代理的真正瓶颈不仅仅是计算最佳问题，还在于使其答案得到充分利用所需的务实推理。”Grand和Pepe与两位CSAIL首席研究员Jacob Andreas和Joshua Tenenbaum共同撰写了这篇论文。他们的工作部分得到了MIT Siegel Family Quest for Intelligence、MIT-IBM Watson AI Lab、FinTechAI@CSAIL倡议、Sloan Research Fellowship、英特尔、美国空军科学研究办公室、国防高级研究计划局、海军研究办公室和国家科学基金会的支持。他们在国际学习表征会议（ICLR）上以口头报告的形式展示了他们的论文。