[AI学术] 精准文本到密码的转化：基于知识图谱的数据生成技术

在快速发展的数据库框架中，属性图被广泛用于表示异构数据源。为了精确访问其中的信息，我们需要基于文本到密码（Text-To-Cypher，Text2Cypher）的对话接口。本文提出了一种自动合成数据生成方法，可用于微调小型大语言模型（LLMs）以完成此任务。我们在所有主要的Text-To-Cypher基准测试上进行实验，结果表明，通过我们的合成数据生成方法，可以显著提升小型LLMs的性能，使其能够与更大型的专有模型竞争。这意味着在需要本地部署模型的场景中，我们能够确保数据主权，同时不牺牲准确性，也避免了高昂的标注成本。

博主点评： 本文展示了合成数据生成在提升小型LLMs性能方面的潜力，尤其在数据隐私日益重要的背景下，为本地部署提供了新的解决方案。这种方法不仅降低了成本，还能有效提高模型准确性，具有重要的应用价值。