CodeS: Towards Building Open-source Language Models for Text-to-SQL

要約

言語モデルは、自然言語の質問を SQL クエリに変換するタスク (Text-to-SQL) で有望なパフォーマンスを示しています。
ただし、最先端 (SOTA) アプローチのほとんどは、ChatGPT や GPT-4 などの強力でありながらクローズドソースの大規模言語モデル (LLM) に依存しており、不明確なモデル アーキテクチャ、データ プライバシーなどの制限がある可能性があります。
リスクと高額な推論オーバーヘッドが発生します。
この制限に対処するために、テキストから SQL へのタスク用に特別に設計された、1B から 15B の範囲のパラメーターを持つ一連の事前トレーニング済み言語モデルである CodeS を導入します。
CodeS は完全にオープンソースの言語モデルであり、はるかに小さいパラメーター サイズで優れた精度を実現します。
この論文では、CodeS を構築する際の研究課題について研究します。
CodeS の SQL 生成能力を強化するために、特別に厳選された SQL 中心のコーパスを使用した増分事前トレーニング アプローチを採用しています。
これに基づいて、戦略的な迅速な構築と双方向のデータ拡張技術を通じて、スキーマのリンクと迅速なドメイン適応の課題に対処します。
当社は、広く使用されている Spider ベンチマーク、新しくリリースされた BIRD ベンチマーク、Spider-DK、Spider-Syn、Spider-Realistic、Dr.Spider などの堅牢性診断ベンチマーク、および 2 つの実際のベンチマークを含む複数のデータセットに対して包括的な評価を実施します。
金融および学術用途のために作成された世界データセット。
実験結果は、私たちの CodeS が、ほぼすべての困難な text-to-SQL ベンチマークで新しい SOTA 精度と堅牢性を達成していることを示しています。

要約(オリジナル)

Language models have shown promising performance on the task of translating natural language questions into SQL queries (Text-to-SQL). However, most of the state-of-the-art (SOTA) approaches rely on powerful yet closed-source large language models (LLMs), such as ChatGPT and GPT-4, which may have the limitations of unclear model architectures, data privacy risks, and expensive inference overheads. To address the limitations, we introduce CodeS, a series of pre-trained language models with parameters ranging from 1B to 15B, specifically designed for the text-to-SQL task. CodeS is a fully open-source language model, which achieves superior accuracy with much smaller parameter sizes. This paper studies the research challenges in building CodeS. To enhance the SQL generation abilities of CodeS, we adopt an incremental pre-training approach using a specifically curated SQL-centric corpus. Based on this, we address the challenges of schema linking and rapid domain adaptation through strategic prompt construction and a bi-directional data augmentation technique. We conduct comprehensive evaluations on multiple datasets, including the widely used Spider benchmark, the newly released BIRD benchmark, robustness-diagnostic benchmarks such as Spider-DK, Spider-Syn, Spider-Realistic, and Dr.Spider, as well as two real-world datasets created for financial and academic applications. The experimental results show that our CodeS achieves new SOTA accuracy and robustness on nearly all challenging text-to-SQL benchmarks.

arxiv情報

著者 Haoyang Li,Jing Zhang,Hanbing Liu,Ju Fan,Xiaokang Zhang,Jun Zhu,Renjie Wei,Hongyan Pan,Cuiping Li,Hong Chen
発行日 2024-02-26 07:00:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB パーマリンク