DBCopilot: Scaling Natural Language Querying to Massive Databases

要約

Text-to-SQL は、専門家でなくても自然言語 (NL) の質問を構造化照会言語 (SQL) クエリに変換できるようにすることで、データベースの対話を簡素化します。
大規模言語モデル (LLM) の最近の進歩により、ゼロショット テキストから SQL へのパラダイムは改善されましたが、既存の方法では、大規模で動的に変化するデータベースを扱う際にスケーラビリティの課題に直面しています。
このペーパーでは、大規模なデータベース全体にわたるルーティングにコンパクトで柔軟なコパイロット モデルを採用することで、これらの課題に対処するフレームワークである DBCopilot を紹介します。
具体的には、DBCopilot はテキストから SQL へのプロセスをスキーマ ルーティングと SQL 生成に分離し、軽量のシーケンスツーシーケンス ニューラル ネットワーク ベースのルーターを利用してデータベース接続を構築し、データベースとテーブルを通じて自然言語の質問をナビゲートします。
ルーティングされたスキーマと質問は、効率的な SQL 生成のために LLM に供給されます。
さらに、DBCopilot は、スキーマから質問への逆生成パラダイムも導入しました。これにより、手動介入を必要とせずに、大規模なデータベース上でルーターを自動的に学習して適応させることができます。
実験結果は、DBCopilot が実際のテキストから SQL へのタスクに対するスケーラブルで効果的なソリューションであり、大規模なスキーマの処理に大幅な進歩をもたらすことを示しています。

要約(オリジナル)

Text-to-SQL simplifies database interactions by enabling non-experts to convert their natural language (NL) questions into Structured Query Language (SQL) queries. While recent advances in large language models (LLMs) have improved the zero-shot text-to-SQL paradigm, existing methods face scalability challenges when dealing with massive, dynamically changing databases. This paper introduces DBCopilot, a framework that addresses these challenges by employing a compact and flexible copilot model for routing across massive databases. Specifically, DBCopilot decouples the text-to-SQL process into schema routing and SQL generation, leveraging a lightweight sequence-to-sequence neural network-based router to formulate database connections and navigate natural language questions through databases and tables. The routed schemas and questions are then fed into LLMs for efficient SQL generation. Furthermore, DBCopilot also introduced a reverse schema-to-question generation paradigm, which can learn and adapt the router over massive databases automatically without requiring manual intervention. Experimental results demonstrate that DBCopilot is a scalable and effective solution for real-world text-to-SQL tasks, providing a significant advancement in handling large-scale schemas.

arxiv情報

著者 Tianshu Wang,Hongyu Lin,Xianpei Han,Le Sun,Xiaoyang Chen,Hao Wang,Zhenyu Zeng
発行日 2024-04-23 08:54:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB, cs.IR パーマリンク