[AI学术] 革命性文本转SQL技术：自增强微调的全新整合

文本转SQL的目标是将自然语言问题转换为可在结构化数据库上执行的SQL查询，从而使非专业用户能够直观地访问数据。尽管近期大规模语言模型（LLMs）的进展在这一任务中展现出潜力，但现有的基于LLM的方法往往难以在强大的推理能力与稳健的泛化能力之间取得平衡。

为了解决这些局限性，我们提出了CoTE-SQL，通过以下三项关键创新来增强基于LLM的文本转SQL生成：

从LLM中提取的自增强推理轨迹，无需人工标注；
采用结构化的思维链（CoT）提示，通过模块化分解和示例检索；
基于SQL执行反馈的错误感知修正。

在Spider和Bird基准上的大量实验表明，CoTE-SQL在与相似模型规模的开源LLM基础上取得了新的最优性能：在Bird上达到53.39%的执行准确率（EX）和59.02%的验证执行准确率（VES），在Spider上则为79.60% EX和77.19% VES，尤其在复杂查询上表现出显著提升。

结果强调了在基于LLM的文本转SQL设计中，结合自增强、结构化推理和执行时反馈的有效性。

博主点评： 该研究通过创新性的自增强与结构化推理方法，成功提升了文本转SQL的性能，展示了大规模语言模型在处理复杂查询时的潜力。结合执行反馈的修正机制，进一步增强了系统的实用性和智能化水平，为未来的研究铺平了道路。