Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning

要約

私たちは、検索拡張生成の観点から、Text-to-SQL のセマンティック解析に焦点を当てています。
商用データベース スキーマのサイズとビジネス インテリジェンス ソリューションの展開可能性に関連する課題を動機として、入力データベース情報を動的に取得し、抽象構文ツリーを使用してコンテキスト内学習用の数ショットのサンプルを選択する $\text{ASTReS}$ を提案します。

さらに、検索をサポートするために、予期される SQL クエリの近似バージョンを生成するために並列セマンティック パーサーをどの程度利用できるかを調査します。
私たちはこのアプローチを極端に採用しています。つまり、5 億ドル未満のパラメーターで構成されるモデルを適応させて、非常に効率的な近似器として機能させ、並列方式でスキーマを処理する機能を強化します。
$\text{ASTReS}$ を意味解析用の単一言語ベンチマークと複数言語ベンチマークに適用し、最先端のベースラインを超える改善を示しています。
包括的な実験により、この検索拡張生成設定に関与するモジュールの貢献が強調され、将来の研究の興味深い方向性が明らかになります。

要約(オリジナル)

We focus on Text-to-SQL semantic parsing from the perspective of retrieval-augmented generation. Motivated by challenges related to the size of commercial database schemata and the deployability of business intelligence solutions, we propose $\text{ASTReS}$ that dynamically retrieves input database information and uses abstract syntax trees to select few-shot examples for in-context learning. Furthermore, we investigate the extent to which an in-parallel semantic parser can be leveraged for generating approximated versions of the expected SQL queries, to support our retrieval. We take this approach to the extreme–we adapt a model consisting of less than $500$M parameters, to act as an extremely efficient approximator, enhancing it with the ability to process schemata in a parallelised manner. We apply $\text{ASTReS}$ to monolingual and cross-lingual benchmarks for semantic parsing, showing improvements over state-of-the-art baselines. Comprehensive experiments highlight the contribution of modules involved in this retrieval-augmented generation setting, revealing interesting directions for future work.

arxiv情報

著者 Zhili Shen,Pavlos Vougiouklis,Chenxin Diao,Kaustubh Vyas,Yuanyi Ji,Jeff Z. Pan
発行日 2024-11-04 12:14:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB パーマリンク