Synthesizing Text-to-SQL Data from Weak and Strong LLMs

要約

テキストから SQL へのタスクでは、オープンソースとクローズドソースの大規模言語モデル (LLM) 間の機能のギャップが依然として課題となっています。
この論文では、より大規模で強力なモデル (強モデル) によって生成されたデータと、小規模で適切に調整されていないモデル (弱モデル) によって生成されたエラー情報データを組み合わせる合成データ アプローチを紹介します。
この方法は、テキストから SQL へのモデルのドメイン一般化を強化するだけでなく、優先学習によるエラー データ監視の可能性も探求します。
さらに、オープンソース LLM での命令チューニングに合成データ アプローチを採用し、その結果、特殊な text-to-SQL モデルである SENSE が誕生しました。
SENSE の有効性は、SPIDER および BIRD ベンチマークの最先端の結果を通じて実証され、オープンソース モデルとクローズドソース モデルによって促進される手法との間のパフォーマンスのギャップを埋めます。

要約(オリジナル)

The capability gap between open-source and closed-source large language models (LLMs) remains a challenge in text-to-SQL tasks. In this paper, we introduce a synthetic data approach that combines data produced by larger, more powerful models (strong models) with error information data generated by smaller, not well-aligned models (weak models). The method not only enhances the domain generalization of text-to-SQL models but also explores the potential of error data supervision through preference learning. Furthermore, we employ the synthetic data approach for instruction tuning on open-source LLMs, resulting SENSE, a specialized text-to-SQL model. The effectiveness of SENSE is demonstrated through state-of-the-art results on the SPIDER and BIRD benchmarks, bridging the performance gap between open-source models and methods prompted by closed-source models.

arxiv情報

著者 Jiaxi Yang,Binyuan Hui,Min Yang,Jian Yang,Junyang Lin,Chang Zhou
発行日 2024-08-06 15:40:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク