摘要
语言模型在维护操作中越来越多地作为顾问系统使用。为了防止虚假信息的产生,最近的系统通过程序文档将这些模型限制在批准的步骤内。然而,在实际操作中,操作员的查询往往会偏离这一路径,这要求模型在对话中识别超出范围的输入,而当前的基准测试很少优先考虑这种动态。
我们引入了DiagFlowBench,这是一个包含50个工业诊断流程图的数据集,来自一家消费品制造商,转换为1676个多轮对话,比较合规与超出范围的发言。
评估十个商业和开放权重模型的结果显示,模型的回避率存在较高的变异性,模型通常选择一个真实但在上下文中不恰当的步骤,而不是编造事实。映射但错误建议的内在可信度和权威性暴露了基础系统的一个挑战性脆弱性。
博主点评: 该研究揭示了语言模型在实际应用中的局限性,尤其是在处理偏离程序的输入时。DiagFlowBench的引入为未来的模型评估提供了新的思路,强调了确保模型输出准确性的重要性。通过对模型表现的详细分析,可以推动更可靠的诊断系统的开发。