摘要
在大规模语言模型(LLMs)的发展中,生成伪中间推理的最新方法取得了显著进展。然而,这些方法通常依赖大量正确标注的答案来评估推理质量。本文提出了一种半监督框架,通过最小的监督扩展推理学习,将推理验证本身转变为数据创建机制。我们在仅有少量标注样本的情况下训练了一个轻量级的推理正确性分类器,用于判断LLM生成的中间推理轨迹是否有效。
此外,基于熵的置信度阈值用于过滤不可靠样本,剩余的高置信度推理轨迹用于微调模型。在可验证数学问题(Orca-Math子集)和图像场景图问答(GQA)与视觉编程的实验中,我们的方法达到了与使用10-15倍更多标注数据相当的准确性。消融分析确认分类器和熵过滤对于可扩展和抗噪声的伪标注至关重要。通过用轻量级推理验证替代昂贵的答案级监督,我们的方法为构建大规模推理资源提供了实用路径,并为未来从最少人类输入学习的自主推理系统铺平了道路。
博主点评: 这项研究通过轻量级验证器的引入,显著降低了对标注数据的需求,展示了在LLM推理领域的创新潜力。其半监督框架的有效性为未来的发展提供了重要参考,尤其是在数据稀缺的情况下。