要約
自然言語クエリを構造化されたクエリ言語(テキストからSQLまたはNLQ-to-SQL)に変換することは、自然言語処理とデータベースコミュニティの両方で広く研究されている重要なタスクであり、データベース(NLIDB)とデータベースに自然言語インターフェイスを提供することを目的としています。
非専門家の障壁を下げる。
大規模な言語モデル(LLMS)を使用することにより最近の進歩にもかかわらず、重要な課題が残っています。
これらには、複雑なデータベーススキーマの処理、ユーザークエリのあいまいさの解決、ユーザーの意図を正確に反映する複雑な構造でSQLクエリの生成が含まれます。
この作業では、直接スキーマのリンクと候補の述語増強を通じてこれらの課題に対処するために特別に設計された新しいパイプラインであるE-SQLを紹介します。
E-SQLは、関連するデータベース項目(つまり、表、列、値)と条件を質問とSQL構築計画に直接組み込み、クエリとデータベース構造の間のギャップを埋めることにより、自然言語クエリを強化します。
パイプラインは、生成されたSQLの誤ったまたは不完全な述語を緩和するために、候補の述語増強を活用します。
鳥のベンチマークでの包括的な評価は、E-SQLが競争力のあるパフォーマンスを達成することを示しています。特に、テストセットで66.29%の実行精度で複雑なクエリで優れています。
実験からのさらなる観察により、スキーマのフィルタリングを翻訳パイプラインに組み込むことは、最先端の独自のLLMが使用されている場合、パフォーマンスにプラスの影響を与えないことが明らかになりました。
さらに、小さなLLMSを使用した実験は、豊かな質問のパフォーマンスに対する重要性とプラスの影響を強調しています。
微調整なしでは、deepseekコーダー7bを使用した濃縮質問を使用したシングルプロンプトSQL生成1.5Vは、鳥の発達セットで56.45%の実行精度を達成します。
要約(オリジナル)
Translating Natural Language Queries into Structured Query Language (Text-to-SQL or NLQ-to-SQL) is a critical task extensively studied by both the natural language processing and database communities, aimed at providing a natural language interface to databases (NLIDB) and lowering the barrier for non-experts. Despite recent advancements made through the use of Large Language Models (LLMs), significant challenges remain. These include handling complex database schemas, resolving ambiguity in user queries, and generating SQL queries with intricate structures that accurately reflect the user’s intent. In this work, we introduce E-SQL, a novel pipeline specifically designed to address these challenges through direct schema linking and candidate predicate augmentation. E-SQL enhances the natural language query by incorporating relevant database items (i.e., tables, columns, and values) and conditions directly into the question and SQL construction plan, bridging the gap between the query and the database structure. The pipeline leverages candidate predicate augmentation to mitigate erroneous or incomplete predicates in generated SQLs. Comprehensive evaluations on the BIRD benchmark illustrate that E-SQL achieves competitive performance, particularly excelling in complex queries with a 66.29% execution accuracy on the test set. A further observation from our experiments reveals that incorporating schema filtering into the translation pipeline does not have a positive impact on performance when the most advanced proprietary LLMs are used. Additionally, our experiments with small LLMs highlight the importance and positive impact of enriched questions on their performance. Without fine-tuning, single-prompt SQL generation using enriched questions with DeepSeek Coder 7B Instruct 1.5v achieves 56.45% execution accuracy on the BIRD development set.
arxiv情報
著者 | Hasan Alp Caferoğlu,Özgür Ulusoy |
発行日 | 2025-01-28 09:45:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google