要約
Text-to-SQL システム (NL-to-SQL システムとも呼ばれます) は、ユーザー機能と SQL ベースのデータ アクセスの間のギャップを埋めるためのソリューションとしてますます人気が高まっています。
これらのシステムは、自然言語でのユーザー要求を特定のデータベースの有効な SQL ステートメントに変換します。
最近の Text-to-SQL システムは、トランスフォーマー ベースの言語モデルの急速な改善の恩恵を受けています。
しかし、そのようなモデルを組み込んだ Text-to-SQL システムは、多くの場合合成ベンチマーク データセットで新しい高スコアを継続的に達成していますが、実際の現実的なシナリオにおけるさまざまなデータ モデルに対する堅牢性の体系的な調査が著しく欠けています。
このペーパーでは、Text-to-SQL インターフェイスに焦点を当てた複数年にわたる国際プロジェクトに基づいて、実際の Text-to-SQL システムのデータ モデルの堅牢性を初めて詳細に評価しました。
私たちの評価は、FootballDB の実世界の展開に基づいています。このシステムは、2022 FIFA ワールドカップの文脈で 9 か月間にわたって展開され、その間に約 6,000 の自然言語の質問が行われ、実行されました。
当社のデータはすべて、システムに対してライブで行われた実際のユーザーの質問に基づいています。
これらの質問のサブセットを 3 つの異なるデータ モデルに対して手動でラベル付けし、翻訳しました。
データ モデルごとに、代表的な Text-to-SQL システムと言語モデルのパフォーマンスを調査します。
さらに、トレーニング データのサイズ、前処理ステップ、後処理ステップ、言語モデルの推論時間の影響を定量化します。
私たちの包括的な評価により、現実世界の Text-to-SQL システムの設計上の選択と、研究プロトタイプから実際の導入への移行に対するその影響が明らかになります。
最後に、新しいベンチマーク データセットをコミュニティに提供します。これは、同じデータセットに対して異なるデータ モデルの評価を可能にする初めてのもので、クエリの複雑さの点で以前のほとんどのデータセットよりも大幅に困難です。
要約(オリジナル)
Text-to-SQL systems (also known as NL-to-SQL systems) have become an increasingly popular solution for bridging the gap between user capabilities and SQL-based data access. These systems translate user requests in natural language to valid SQL statements for a specific database. Recent Text-to-SQL systems have benefited from the rapid improvement of transformer-based language models. However, while Text-to-SQL systems that incorporate such models continuously reach new high scores on — often synthetic — benchmark datasets, a systematic exploration of their robustness towards different data models in a real-world, realistic scenario is notably missing. This paper provides the first in-depth evaluation of the data model robustness of Text-to-SQL systems in practice based on a multi-year international project focused on Text-to-SQL interfaces. Our evaluation is based on a real-world deployment of FootballDB, a system that was deployed over a 9 month period in the context of the FIFA World Cup 2022, during which about 6K natural language questions were asked and executed. All of our data is based on real user questions that were asked live to the system. We manually labeled and translated a subset of these questions for three different data models. For each data model, we explore the performance of representative Text-to-SQL systems and language models. We further quantify the impact of training data size, pre-, and post-processing steps as well as language model inference time. Our comprehensive evaluation sheds light on the design choices of real-world Text-to-SQL systems and their impact on moving from research prototypes to real deployments. Last, we provide a new benchmark dataset to the community, which is the first to enable the evaluation of different data models for the same dataset and is substantially more challenging than most previous datasets in terms of query complexity.
arxiv情報
著者 | Jonathan Fürst,Catherine Kosten,Farhard Nooralahzadeh,Yi Zhang,Kurt Stockinger |
発行日 | 2024-06-18 15:10:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google