在快速发展的数据库框架中,属性图被广泛用于表示异构数据源。为了精确访问其中的信息,我们需要基于文本到密码(Text-To-Cypher,Text2Cypher)的对话接口。本文提出了一种自动合成数据生成方法,可用于微调小型大语言模型(LLMs)以完成此任务。我们在所有主要的Text-To-Cypher基准测试上进行实验,结果表明,通过我们的合成数据生成方法,可以显著提升小型LLMs的性能,使其能够与更大型的专有模型竞争。这意味着在需要本地部署模型的场景中,我们能够确保数据主权,同时不牺牲准确性,也避免了高昂的标注成本。
博主点评: 本文展示了合成数据生成在提升小型LLMs性能方面的潜力,尤其在数据隐私日益重要的背景下,为本地部署提供了新的解决方案。这种方法不仅降低了成本,还能有效提高模型准确性,具有重要的应用价值。