NeFut Logo NeFut
EN 管理员登录

[核心技术] 机器人如何借助LLMs理解模糊指令,聚焦关键细节

发布于:2026-06-26 22:00 最后更新:2026-06-28 10:08
#AI #Machine Learning #optimization

想象一下,在不久的将来,你在一个仓库或办公室工作,正被要求帮助一位新员工学习工作基础。这个员工是一个机器人。为了教会它,你可能会进行“展示与讲解”的游戏——即通过物理演示几种不同的方式,同时解释你在做什么。假设你要求机器人在你进行Zoom通话时将咖啡放在你的桌子上。你希望机器人不要靠得太近,以免打扰到你和笔记本电脑。为了实现这一行为,机器人需要用明确的数据进行训练,展示完整的任务。

计算机科学家们尝试通过录制大量的物理演示或编写详尽的指令来向机器人解释操作任务。但如果两者缺一,机器很可能会误解其需要完成的任务。由于人类进行所有的展示和讲解非常繁琐,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员已经自动化了教机器人过程,同时自动澄清指令,并使用近五倍更少的演示数据。他们的“掩蔽逆强化学习”(Masked IRL)方法利用大型语言模型(LLM)基于用户演示收集的数据详细说明模糊提示。另一个LLM则缩小算法应纳入运动计划的细节,使得机器人能够安全地完成家庭、办公室和工厂的工作。

“我们的方法在与机器人互动时非常有用,而人类不想详细说明任务的所有细节。”麻省理工学院博士生及CSAIL研究员Minyoung Hwang说道,他是该项目论文的主要作者。“通过让机器了解用户真正想要的内容,我们在减少人类的努力。”根据Hwang的说法,Masked IRL可以帮助机器人在某些人类可能在提示中未描述但仍然至关重要的环境中安全移动。例如,机器抓取你在厨房的零食时,可能不知道要避免碰撞你的笔记本电脑。同样,工厂机器人在将物品放入不同的箱子时,必须小心绕过货架。

在这些情况下,Masked IRL利用机器人的传感器捕获周围环境的信息。这些组件还记录每个运动的运动演示——一种训练方法,其中人类物理地移动机器人以执行特定操作。就像是机器的物理治疗师,朝特定方向弯曲关节,向机器人展示如何抓取、移动和放置物体。

麻省理工学院的系统随后调用LLM将这一运动序列(称为轨迹)与最短路径进行比较。该模型还详细说明了提示中可能不明确的内容,将“保持靠近”这样的请求转变为“保持靠近桌面的表面”。通过轨迹比较和澄清指令,LLM开始理解训练中的运动对任务的重要性。

第二个LLM随后评估环境的细节,例如障碍物的位置和目标物体的形状。在此过程中,它“掩蔽”(即忽略)被认为与当前任务无关的元素,并对每个元素进行评分,标记为“1”(重要)或“0”(不重要)。例如,用户在演示过程中是否倚靠在桌子上将被标记为“0”,因此是无关的。任何被认为是“1”的细节将被纳入算法的最终行动计划。

这些掩蔽使Masked IRL在3D和现实世界演示中相较于可比基线具有关键优势,因为它教会机器人优先考虑哪些信息。得益于研究人员的系统,虚拟和真实的机器人都能够熟练地在障碍物周围移动物体,例如将咖啡杯移到桌子上的不同位置。在这些任务中,Masked IRL正确识别用户的偏好,未在提示中明确说明的偏好,准确率比可比基线高出15%。

在模拟实验中,CSAIL的研究人员还发现Masked IRL是一个快速学习者。它需要更少的演示来理解如何移动杯子,相较于其基线,表现更佳。他们还发现,当LLM澄清指令时,机器人表现得更好,而不是让机器试图遵循模糊的请求。

这种更集中的方法也很好地转化到了一个真实的机器人手臂,执行系统在训练阶段未见过的提示。在经过50次运动演示训练后,机器人小心地将杯子移动到人类面前,同时避免与用户的电脑碰撞——这是通过对“保持远离”的更一般请求进行详细说明而学会的。它还在“保持靠近”的同时擦拭桌子,并在“远离”人类和桌子的情况下递给用户一袋薯片。

Masked IRL能够感知并解释用户未说出的内容,但不久的将来,它可能也能“看”到这些内容。CSAIL的研究人员计划通过为其配备相机,使其方法更加动态,允许机器人拍摄周围环境的图像。然后,它可以突出并专注于附近的特定元素。例如,如果你要求机器捡起一个玩具,它可能会看到一些香蕉在附近,并在处理目标物体之前忽略它们。

Hwang与三位CSAIL同事共同撰写了该论文:博士生Alexandra Forsey-Smerek,SM '22;博士后Nathaniel Dennler;以及MIT助理教授Andreea Bobu,后者是航空航天与计算机科学与人工智能实验室的成员。他们的工作部分得到了塔塔集团通过麻省理工学院生成式人工智能影响联盟奖和国防部的支持。他们将在2026年6月的IEEE国际机器人与自动化会议上展示该项目。

博主点评: 该研究展示了大型语言模型在机器人学习中的潜力,尤其是在处理模糊指令方面。通过自动化教学过程,Masked IRL大幅减少了人类的参与,同时提升了机器人的理解能力。这种方法不仅提高了任务执行的准确性,还为未来的机器人交互奠定了基础,值得关注和深入研究。

原文链接: https://news.mit.edu/2026/llms-help-robots-understand-vague-instructions-and-focus-key-details-0626

[h] 返回首页