[AI学术] FactoryLLM：安全开放的智能工厂大语言模型评估平台

在智能工厂中，故障诊断和恢复面临着挑战，因为关键信息分散在多个机器的手册中，这些机器通过制造过程相互连接。大语言模型（LLMs）提供了一种有前景的方法。本文提出了FactoryLLM，一个安全的开源AI平台，旨在通过分析来自多个机器的文档来评估不同基于检索增强生成（RAG）模型的性能。

FactoryLLM允许用户配置LLM，并通过双重评估设置使用RAGAS和NVIDIA的LLM-as-a-Judge指标来评估在多个文档上推理的性能。FactoryLLM之所以安全，是因为它允许用户在不共享敏感工业数据的情况下运行本地或开源LLM，提供了一个受控的实验环境。

我们通过一个案例研究来展示FactoryLLM的有效性，该案例涉及一辆自主智能车辆及其移动规划软件，评估了三种LLM在约600页跨机器文档中衍生的30个维护查询的表现。结果表明，FactoryLLM在跨机器文档推理方面是有效的：每个模型的基础分数均超过0.88。完整的代码和文档已公开，供社区在其特定的制造场景中测试FactoryLLM。

博主点评： FactoryLLM为智能制造行业提供了一个创新的工具，能够在保护数据隐私的同时，评估和优化大语言模型的性能。这种开放性和灵活性使得企业能够更好地适应不断变化的技术需求，推动智能工厂的发展。