要約
最近、自然言語から SQL システム (NL から SQL) への自然言語から SQL クエリへの変換の精度が大幅に向上しています。
この改善は、トランスフォーマー ベースの言語モデルの出現と、NL から SQL へのシステムを評価するための事実上の標準である Spider ベンチマークの人気によるものです。
上位の NL から SQL へのシステムは、最大 85\% の精度に達します。
ただし、Spider には主にテーブル、列、エントリがほとんどない単純なデータベースが含まれており、現実的な設定を反映していません。
さらに、ドメイン固有のコンテンツを含む複雑な実世界のデータベースには、NL/SQL ペアの形式で利用できるトレーニング データがほとんどまたはまったくなく、既存の NL から SQL へのシステムのパフォーマンスが低下します。
このペーパーでは、3 つの現実世界の高度にドメイン固有のデータベース向けの、新しい複雑な NL から SQL へのベンチマークである ScienceBenchmark を紹介します。
この新しいベンチマークでは、SQL 専門家とドメイン専門家がドメインごとに高品質の NL/SQL ペアを作成しました。
より多くのデータを収集するために、人間が生成した少量のデータを GPT-3 を使用して生成された合成データで拡張しました。
Spider 上の最高パフォーマンスのシステムがベンチマークで非常に低いパフォーマンスを達成しているため、ベンチマークは非常に困難であることがわかります。
したがって、合成データで強化された少量の手作りトレーニング データを使用して、非常に複雑なドメイン向けの NL から SQL へのシステムを作成するという課題は数多くあります。
私たちの知る限り、ScienceBenchmark は、現実世界の複雑な科学データベースを使用して設計された初の NL から SQL へのベンチマークであり、ドメインの専門家によって慎重に検証された困難なトレーニング データとテスト データが含まれています。
要約(オリジナル)
Natural Language to SQL systems (NL-to-SQL) have recently shown a significant increase in accuracy for natural language to SQL query translation. This improvement is due to the emergence of transformer-based language models, and the popularity of the Spider benchmark – the de-facto standard for evaluating NL-to-SQL systems. The top NL-to-SQL systems reach accuracies of up to 85\%. However, Spider mainly contains simple databases with few tables, columns, and entries, which does not reflect a realistic setting. Moreover, complex real-world databases with domain-specific content have little to no training data available in the form of NL/SQL-pairs leading to poor performance of existing NL-to-SQL systems. In this paper, we introduce ScienceBenchmark, a new complex NL-to-SQL benchmark for three real-world, highly domain-specific databases. For this new benchmark, SQL experts and domain experts created high-quality NL/SQL-pairs for each domain. To garner more data, we extended the small amount of human-generated data with synthetic data generated using GPT-3. We show that our benchmark is highly challenging, as the top performing systems on Spider achieve a very low performance on our benchmark. Thus, the challenge is many-fold: creating NL-to-SQL systems for highly complex domains with a small amount of hand-made training data augmented with synthetic data. To our knowledge, ScienceBenchmark is the first NL-to-SQL benchmark designed with complex real-world scientific databases, containing challenging training and test data carefully validated by domain experts.
arxiv情報
著者 | Yi Zhang,Jan Deriu,George Katsogiannis-Meimarakis,Catherine Kosten,Georgia Koutrika,Kurt Stockinger |
発行日 | 2023-12-05 15:05:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google