LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL

要約

スキーマリンクは、テキスト間タスク、特に実際の大規模なマルチデータベースシナリオで人間レベルのパフォーマンスを達成する上で重要なボトルネックです。
スキーマのリンクに対処することは、2つの主要な課題に直面しています。(1)データベースの取得:無関係なものを除外しながら、マルチデータベース設定の大きなスキーマプールから正しいデータベースを選択します。
(2)スキーマアイテムの接地:SQL生成の大規模で冗長なスキーマ内から関連するテーブルと列を正確に識別します。
これに対処するために、スキーマリンクに体系的に対処することにより、既存のベースラインを実際の環境に効果的に適応できる新しいフレームワークであるLinkalignを紹介します。
私たちのフレームワークは、3つの重要なステップで構成されています。マルチラウンドセマンティック強化された検索と課題1の分離、およびチャレンジ2のスキーマ抽出強化。クモと鳥のベンチマークにリンクするスキーマの方法のパフォーマンスを評価し、既存のテキストからSQLモデルを実際の環境に適応させる能力を評価します。
実験では、リンキラインがマルチデータベース設定の既存のベースラインを上回り、その有効性と堅牢性を示していることが示されています。
一方、私たちの方法は、長い考え方の推論LLMSを使用しているモデルを除くモデルの中で最も高くランク付けされています。
この作業は、現在の研究と現実世界のシナリオの間のギャップを埋め、堅牢でスケーラブルなスキーマリンクの実用的なソリューションを提供します。
コードはhttps://github.com/satissss/linkalignで入手できます。

要約(オリジナル)

Schema linking is a critical bottleneck in achieving human-level performance in Text-to-SQL tasks, particularly in real-world large-scale multi-database scenarios. Addressing schema linking faces two major challenges: (1) Database Retrieval: selecting the correct database from a large schema pool in multi-database settings, while filtering out irrelevant ones. (2) Schema Item Grounding: accurately identifying the relevant tables and columns from within a large and redundant schema for SQL generation. To address this, we introduce LinkAlign, a novel framework that can effectively adapt existing baselines to real-world environments by systematically addressing schema linking. Our framework comprises three key steps: multi-round semantic enhanced retrieval and irrelevant information isolation for Challenge 1, and schema extraction enhancement for Challenge 2. We evaluate our method performance of schema linking on the SPIDER and BIRD benchmarks, and the ability to adapt existing Text-to-SQL models to real-world environments on the SPIDER 2.0-lite benchmark. Experiments show that LinkAlign outperforms existing baselines in multi-database settings, demonstrating its effectiveness and robustness. On the other hand, our method ranks highest among models excluding those using long chain-of-thought reasoning LLMs. This work bridges the gap between current research and real-world scenarios, providing a practical solution for robust and scalable schema linking. The codes are available at https://github.com/Satissss/LinkAlign.

arxiv情報

著者 Yihan Wang,Peiyu Liu,Xin Yang
発行日 2025-03-24 11:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク