UNITE: A Unified Benchmark for Text-to-SQL Evaluation

要約

実用的な text-to-SQL システムは、さまざまな自然言語の質問、目に見えないデータベース スキーマ、および新しい SQL クエリ構造をうまく一般化する必要があります。
text-to-SQL システムを包括的に評価するために、\textbf{T}ext-to-SQL \textbf{E} 評価用の \textbf{UNI} フィールド ベンチマーク (UNITE) を導入します。
これは、公開されている text-to-SQL データセットで構成されており、12 を超えるドメインからの自然言語の質問、3.9,000 を超えるパターンからの SQL クエリ、および 29,000 のデータベースが含まれています。
広く使用されている Spider ベンチマーク \cite{yu-etal-2018-spider} と比較して、$\sim$120K の追加の例と、比較質問やブール質問などの SQL パターンの 3 倍の増加を導入しています。
私たちは、新しいベンチマークで 6 つの最先端 (SOTA) text-to-SQL パーサーの体系的な調査を実施し、次のことを示しました。1) Codex はドメイン外のデータセットで驚くほど良好にパフォーマンスします。
2) 特別に設計されたデコード方法 (例: 制約付きビームサーチ) により、ドメイン内設定とドメイン外設定の両方でパフォーマンスを向上させることができます。
3) 質問とスキーマの間の関係を明示的にモデル化することで、Seq2Seq モデルがさらに改善されます。
さらに重要なことに、私たちのベンチマークは、これらの SOTA モデルでは十分に対処できない、構成の一般化と堅牢性の問題に対する重要な課題を提示しています。

要約(オリジナル)

A practical text-to-SQL system should generalize well on a wide variety of natural language questions, unseen database schemas, and novel SQL query structures. To comprehensively evaluate text-to-SQL systems, we introduce a \textbf{UNI}fied benchmark for \textbf{T}ext-to-SQL \textbf{E}valuation (UNITE). It is composed of publicly available text-to-SQL datasets, containing natural language questions from more than 12 domains, SQL queries from more than 3.9K patterns, and 29K databases. Compared to the widely used Spider benchmark \cite{yu-etal-2018-spider}, we introduce $\sim$120K additional examples and a threefold increase in SQL patterns, such as comparative and boolean questions. We conduct a systematic study of six state-of-the-art (SOTA) text-to-SQL parsers on our new benchmark and show that: 1) Codex performs surprisingly well on out-of-domain datasets; 2) specially designed decoding methods (e.g. constrained beam search) can improve performance for both in-domain and out-of-domain settings; 3) explicitly modeling the relationship between questions and schemas further improves the Seq2Seq models. More importantly, our benchmark presents key challenges towards compositional generalization and robustness issues — which these SOTA models cannot address well.

arxiv情報

著者 Wuwei Lan,Zhiguo Wang,Anuj Chauhan,Henghui Zhu,Alexander Li,Jiang Guo,Sheng Zhang,Chung-Wei Hang,Joseph Lilien,Yiqun Hu,Lin Pan,Mingwen Dong,Jun Wang,Jiarong Jiang,Stephen Ash,Vittorio Castelli,Patrick Ng,Bing Xiang
発行日 2023-05-25 17:19:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク