Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs

要約

タイトル:LLMはすでにデータベースインターフェースとして機能することができるか?:大規模データベースグラウンドテキスト対SQLのためのビッグベンチ

要約:
– 自然言語の指示を実行可能なSQLに変換するテキスト対SQL解析は、近年注目されている。
– しかし、現在のベンチマークは、一部のデータベースコンテンツのみで構成されるデータベーススキーマに焦点を当てており、現実世界の応用とは乖離している。
– これを補うため、大規模データベースに焦点を当てた新しいベンチマークであるBirdを提案。
– 37の専門分野にまたがる95のデータベースと12,751のテキスト対SQLデータを含み、総サイズは33.4GBになる。
– データベース値の理解を特徴づける必要があるため、テキスト対SQLモデルは、意味解析に加えてデータベース値理解を特徴づける必要がある。
– 実験結果から、大規模データベースの正確なテキスト対SQLを生成するためには、効果的なテキスト対SQLモデルが必要であることが示唆された。
– ChatGPTのような最も効果的なテキスト対SQLモデルでも、実行精度は40.08%にすぎず、人間の結果にはまだ及んでいない。
– 効率的なテキスト対SQLを生成するためのインサイトを提供する効率分析も提供している。
– Birdが、テキスト対SQLの研究の現実世界への応用の推進に貢献すると信じている。リーダーボードやソースコードは利用可能である。

要約(オリジナル)

Text-to-SQL parsing, which aims at converting natural language instructions into executable SQLs, has gained increasing attention in recent years. In particular, Codex and ChatGPT have shown impressive results in this task. However, most of the prevalent benchmarks, i.e., Spider, and WikiSQL, focus on database schema with few rows of database contents leaving the gap between academic study and real-world applications. To mitigate this gap, we present Bird, a big benchmark for large-scale database grounded in text-to-SQL tasks, containing 12,751 pairs of text-to-SQL data and 95 databases with a total size of 33.4 GB, spanning 37 professional domains. Our emphasis on database values highlights the new challenges of dirty database contents, external knowledge between NL questions and database contents, and SQL efficiency, particularly in the context of massive databases. To solve these problems, text-to-SQL models must feature database value comprehension in addition to semantic parsing. The experimental results demonstrate the significance of database values in generating accurate text-to-SQLs for big databases. Furthermore, even the most effective text-to-SQL models, i.e. ChatGPT, only achieves 40.08% in execution accuracy, which is still far from the human result of 92.96%, proving that challenges still stand. Besides, we also provide an efficiency analysis to offer insights into generating text-to-efficient-SQLs that are beneficial to industries. We believe that BIRD will contribute to advancing real-world applications of text-to-SQL research. The leaderboard and source code are available: https://bird-bench.github.io/.

arxiv情報

著者 Jinyang Li,Binyuan Hui,Ge Qu,Binhua Li,Jiaxi Yang,Bowen Li,Bailin Wang,Bowen Qin,Rongyu Cao,Ruiying Geng,Nan Huo,Chenhao Ma,Kevin C. C. Chang,Fei Huang,Reynold Cheng,Yongbin Li
発行日 2023-05-04 19:02:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク