TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions

要約

大規模言語モデル (LLM) の最近の進歩により、自然言語の質問を SQL クエリに変換する際の大幅な改善が行われました。
SQL 生成で高い精度を達成することは非常に重要ですが、これらの text-to-SQL モデルが、答えられないものも含め、実際の展開中に遭遇するさまざまなタイプの質問をどの程度確実に処理できるかについてはほとんど知られていません。
この側面を調査するために、単一データベース設定とクロスデータベース設定の両方で text-to-SQL モデルの信頼性を評価するように設計された新しいベンチマークである TrustSQL を紹介します。
TrustSQL では、モデルが 2 つの出力のいずれかを提供する必要があります。1) SQL 予測、または 2) 生成された SQL の潜在的なエラーのため、または答えられない質問に直面した場合の SQL 予測の棄権。
モデルの評価では、このタスク用に特別に設計されたさまざまなモデリング アプローチを検討します。1) 応答性の検出、SQL 生成、およびエラー検出用に個別のモデルを最適化し、これらを単一のパイプラインに統合します。
2) このタスクを解決するために単一のモデルを使用する統一アプローチを開発する。
新しい信頼性スコアを使用した実験結果は、この課題に対処するにはさまざまな研究分野が関与し、モデル開発に新しい道が開かれることを示しています。
ただし、どの方法も、さまざまなペナルティを伴いながら、すべての質問に対して SQL 予測を省略する単純なベースラインの信頼性スコアを一貫して超えることはありません。

要約(オリジナル)

Recent advances in large language models (LLMs) have led to significant improvements in translating natural language questions into SQL queries. While achieving high accuracy in SQL generation is crucial, little is known about the extent to which these text-to-SQL models can reliably handle diverse types of questions encountered during real-world deployment, including unanswerable ones. To explore this aspect, we introduce TrustSQL, a new benchmark designed to assess the reliability of text-to-SQL models in both single-database and cross-database settings. TrustSQL requires models to provide one of two outputs: 1) an SQL prediction or 2) abstention from making an SQL prediction, either due to potential errors in the generated SQL or when faced with unanswerable questions. For model evaluation, we explore various modeling approaches specifically designed for this task: 1) optimizing separate models for answerability detection, SQL generation, and error detection, which are then integrated into a single pipeline; and 2) developing a unified approach that uses a single model to solve this task. Experimental results using our new reliability score show that addressing this challenge involves many different areas of research and opens new avenues for model development. However, none of the methods consistently surpasses the reliability scores of a naive baseline that abstains from SQL predictions for all questions, with varying penalties.

arxiv情報

著者 Gyubok Lee,Woosog Chay,Seonhee Cho,Edward Choi
発行日 2024-04-16 15:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク