The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models

要約

スキーマ リンクは、自然言語クエリを SQL に変換する Text-to-SQL パイプラインの重要なステップです。
スキーマ リンクの目的は、無関係なもの (ノイズ) を無視しながら、関連するテーブルと列 (シグナル) を取得することです。
ただし、スキーマ リンクが不完全であると、正確なクエリ生成に必要な必須の列が除外されることがよくあります。
この作業では、最新世代の大規模言語モデル (LLM) を使用する場合のスキーマ リンクの必要性について再検討します。
新しいモデルは、明示的なスキーマ リンクを必要とせずに、生成中に関連するスキーマ要素を識別することに優れていることが経験的にわかっています。
これにより、Text-to-SQL パイプラインはスキーマ リンクを完全にバイパスし、代わりに完全なデータベース スキーマを LLM に渡すことができるため、必要な情報が除外されるリスクが排除されます。
さらに、スキーマ リンクの代替として、重要なスキーマ情報を損なうことなく Text-to-SQL の精度を向上させる手法を提案します。
私たちのアプローチは、BIRD ベンチマークで 71.83\% の実行精度を達成し、提出時点で 1 位にランクされています。

要約(オリジナル)

Schema linking is a crucial step in Text-to-SQL pipelines, which translate natural language queries into SQL. The goal of schema linking is to retrieve relevant tables and columns (signal) while disregarding irrelevant ones (noise). However, imperfect schema linking can often exclude essential columns needed for accurate query generation. In this work, we revisit the need for schema linking when using the latest generation of large language models (LLMs). We find empirically that newer models are adept at identifying relevant schema elements during generation, without the need for explicit schema linking. This allows Text-to-SQL pipelines to bypass schema linking entirely and instead pass the full database schema to the LLM, eliminating the risk of excluding necessary information. Furthermore, as alternatives to schema linking, we propose techniques that improve Text-to-SQL accuracy without compromising on essential schema information. Our approach achieves 71.83\% execution accuracy on the BIRD benchmark, ranking first at the time of submission.

arxiv情報

著者 Karime Maamari,Fadhil Abubaker,Daniel Jaroslawicz,Amine Mhedhbi
発行日 2024-08-14 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク