DAC: Decomposed Automation Correction for Text-to-SQL

要約

Text-to-SQL は、SQL クエリを自動的に生成することでデータベースから情報を取得するのに役立つ重要なタスクです。
優れたパフォーマンスを考慮すると、Text-to-SQL では大規模言語モデル (LLM) に基づくアプローチが主流になります。
これらのアプローチの中でも、自動修正は、生成された結果の間違いを修正することでパフォーマンスをさらに向上させる効果的なアプローチです。
既存の修正方法では、生成された SQL を使用して LLM が直接修正する必要がありますが、以前の研究では、LLM が間違いを検出する方法を知らず、パフォーマンスの低下につながることが示されています。
したがって、このホワイトペーパーでは、テキストから SQL へのパフォーマンスを向上させるために、分解された修正を使用することを提案します。
まず、分解されたサブタスクの結果の間違いの検出と修正が SQL よりも簡単であるため、分解された修正が直接修正よりも優れていることを示します。
この分析に基づいて、テキストから SQL をエンティティ リンクとスケルトン解析に分解することで SQL を修正する、分解オートメーション修正 (DAC) を導入します。
DACはまず質問に対応するエンティティとスケルトンを生成し、最初のSQLと生成されたエンティティとスケルトンの差異を比較して修正用のフィードバックを行います。
実験結果では、ベースライン手法と比較して、私たちの手法により Spider、Bird、KaggleDBQA のパフォーマンスが平均 $3.7\%$ 向上し、DAC の有効性が実証されました。

要約(オリジナル)

Text-to-SQL is an important task that helps people obtain information from databases by automatically generating SQL queries. Considering the brilliant performance, approaches based on Large Language Models (LLMs) become the mainstream for text-to-SQL. Among these approaches, automated correction is an effective approach that further enhances performance by correcting the mistakes in the generated results. The existing correction methods require LLMs to directly correct with generated SQL, while previous research shows that LLMs do not know how to detect mistakes, leading to poor performance. Therefore, in this paper, we propose to employ the decomposed correction to enhance text-to-SQL performance. We first demonstrate that decomposed correction outperforms direct correction since detecting and fixing mistakes with the results of the decomposed sub-tasks is easier than with SQL. Based on this analysis, we introduce Decomposed Automation Correction (DAC), which corrects SQL by decomposing text-to-SQL into entity linking and skeleton parsing. DAC first generates the entity and skeleton corresponding to the question and then compares the differences between the initial SQL and the generated entities and skeleton as feedback for correction. Experimental results show that our method improves performance by $3.7\%$ on average of Spider, Bird, and KaggleDBQA compared with the baseline method, demonstrating the effectiveness of DAC.

arxiv情報

著者 Dingzirui Wang,Longxu Dou,Xuanliang Zhang,Qingfu Zhu,Wanxiang Che
発行日 2024-08-16 14:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク