CRUSH4SQL: Collective Retrieval Using Schema Hallucination For Text2SQL

要約

既存の Text-to-SQL ジェネレーターでは、スキーマ全体をユーザー テキストでエンコードする必要があります。
これはコストがかかるか、数万の列を持つ大規模なデータベースでは非現実的です。
標準の高密度検索手法は、大規模な構造化データベースのスキーマ サブセット化には不十分です。検索の正しいセマンティクスでは、個々の要素ではなくスキーマ要素のセットをランク付けする必要があります。
これに応えて、検索中に効果的なカバレッジを実現する 2 段階のプロセスを提案します。
まず、クエリに答えるのに適切と思われる最小限の DB スキーマを幻覚するように LLM に指示します。
幻覚スキーマを使用して、複数の高密度検索の結果を合成することにより、実際のスキーマのサブセットを取得します。
注目すべきことに、一般に迷惑な$\unicode{x2013}$と考えられている幻覚$\unicode{x2013}$が、橋渡しのメカニズムとして実際に役立つことが判明しました。
大規模なデータベースでのスキーマのサブセット化に関する既存のベンチマークは存在しないため、3 つのベンチマークを紹介します。
2 つの半合成データセットは、SPIDER と BIRD という 2 つのよく知られたデータセットのスキーマの結合から派生し、それぞれ 4502 個と 798 個のスキーマ要素になります。
SocialDB と呼ばれる実際のベンチマークは、17,844 個のスキーマ要素で構成される実際の大規模なデータ ウェアハウスをソースとしています。
私たちの方法 1 は、SOTA 検索ベースの拡張方法よりも大幅に高い再現率につながることを示します。

要約(オリジナル)

Existing Text-to-SQL generators require the entire schema to be encoded with the user text. This is expensive or impractical for large databases with tens of thousands of columns. Standard dense retrieval techniques are inadequate for schema subsetting of a large structured database, where the correct semantics of retrieval demands that we rank sets of schema elements rather than individual elements. In response, we propose a two-stage process for effective coverage during retrieval. First, we instruct an LLM to hallucinate a minimal DB schema deemed adequate to answer the query. We use the hallucinated schema to retrieve a subset of the actual schema, by composing the results from multiple dense retrievals. Remarkably, hallucination $\unicode{x2013}$ generally considered a nuisance $\unicode{x2013}$ turns out to be actually useful as a bridging mechanism. Since no existing benchmarks exist for schema subsetting on large databases, we introduce three benchmarks. Two semi-synthetic datasets are derived from the union of schemas in two well-known datasets, SPIDER and BIRD, resulting in 4502 and 798 schema elements respectively. A real-life benchmark called SocialDB is sourced from an actual large data warehouse comprising 17844 schema elements. We show that our method1 leads to significantly higher recall than SOTA retrieval-based augmentation methods.

arxiv情報

著者 Mayank Kothyari,Dhruva Dhingra,Sunita Sarawagi,Soumen Chakrabarti
発行日 2023-11-02 12:13:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク