ScienceBenchmark: A Complex Real-World Benchmark for Evaluating Natural Language to SQL Systems

要約

最近、自然言語から SQL システム (NL から SQL) への自然言語から SQL クエリへの変換の精度が大幅に向上しています。
この改善は、トランスフォーマー ベースの言語モデルの出現と、NL から SQL へのシステムを評価するための事実上の標準である Spider ベンチマークの人気によるものです。
上位の NL から SQL へのシステムは、最大 85\% の精度に達します。
ただし、Spider には主にテーブル、列、エントリがほとんどない単純なデータベースが含まれており、現実的な設定を反映していません。
さらに、ドメイン固有のコンテンツを含む複雑な実世界のデータベースには、NL/SQL ペアの形式で利用できるトレーニング データがほとんどまたはまったくなく、既存の NL から SQL へのシステムのパフォーマンスが低下します。
このペーパーでは、3 つの現実世界の高度にドメイン固有のデータベース向けの、新しい複雑な NL から SQL へのベンチマークである ScienceBenchmark を紹介します。
この新しいベンチマークでは、SQL 専門家とドメイン専門家がドメインごとに高品質の NL/SQL ペアを作成しました。
より多くのデータを収集するために、人間が生成した少量のデータを GPT-3 を使用して生成された合成データで拡張しました。
Spider 上の最高パフォーマンスのシステムがベンチマークで非常に低いパフォーマンスを達成しているため、ベンチマークは非常に困難であることがわかります。
したがって、合成データで強化された少量の手作りトレーニング データを使用して、非常に複雑なドメイン向けの NL から SQL へのシステムを作成するという課題は数多くあります。
私たちの知る限り、ScienceBenchmark は、現実世界の複雑な科学データベースを使用して設計された初の NL から SQL へのベンチマークであり、ドメインの専門家によって慎重に検証された困難なトレーニング データとテスト データが含まれています。

要約(オリジナル)

Natural Language to SQL systems (NL-to-SQL) have recently shown a significant increase in accuracy for natural language to SQL query translation. This improvement is due to the emergence of transformer-based language models, and the popularity of the Spider benchmark – the de-facto standard for evaluating NL-to-SQL systems. The top NL-to-SQL systems reach accuracies of up to 85\%. However, Spider mainly contains simple databases with few tables, columns, and entries, which does not reflect a realistic setting. Moreover, complex real-world databases with domain-specific content have little to no training data available in the form of NL/SQL-pairs leading to poor performance of existing NL-to-SQL systems. In this paper, we introduce ScienceBenchmark, a new complex NL-to-SQL benchmark for three real-world, highly domain-specific databases. For this new benchmark, SQL experts and domain experts created high-quality NL/SQL-pairs for each domain. To garner more data, we extended the small amount of human-generated data with synthetic data generated using GPT-3. We show that our benchmark is highly challenging, as the top performing systems on Spider achieve a very low performance on our benchmark. Thus, the challenge is many-fold: creating NL-to-SQL systems for highly complex domains with a small amount of hand-made training data augmented with synthetic data. To our knowledge, ScienceBenchmark is the first NL-to-SQL benchmark designed with complex real-world scientific databases, containing challenging training and test data carefully validated by domain experts.

arxiv情報

著者 Yi Zhang,Jan Deriu,George Katsogiannis-Meimarakis,Catherine Kosten,Georgia Koutrika,Kurt Stockinger
発行日 2023-12-05 15:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, H.2.4 パーマリンク