要約
大規模言語モデル (LLM) は、さまざまな自然言語処理タスクにわたって優れた機能を実証してきました。
特に、推論能力の向上とコンテキスト ウィンドウの拡張により、これらの強力なモデルを活用するための新しい道が開かれました。
NL2SQL は、自然言語の質問が本質的に曖昧である一方で、SQL の生成には複雑なデータ スキーマとセマンティクスを正確に理解する必要があるという点で困難を伴います。
この意味上のあいまいな問題に対する 1 つのアプローチは、より多くの十分なコンテキスト情報を提供することです。
この研究では、Google の最先端 LLM (\textit{gemini-1.5-pro}) が提供する拡張コンテキスト ウィンドウ (別名、ロング コンテキスト) のパフォーマンスとレイテンシーのトレードオフを調査します。
私たちは、列の例の値、質問と SQL クエリのペア、ユーザー提供のヒント、SQL ドキュメント、スキーマなど、さまざまなコンテキスト情報の影響を調査します。
私たちの知る限り、これは、拡張されたコンテキスト ウィンドウと追加のコンテキスト情報が、精度と遅延コストの両方の点で NL2SQL 生成にどのように役立つかを研究した最初の研究です。
ロング コンテキスト LLM は堅牢であり、拡張されたコンテキスト情報の中で失われないことを示します。
さらに、Google の \textit{gemini-pro-1.5} に基づくロングコンテキスト NL2SQL パイプラインは、微調整や高価な自己整合性ベースの技術を使用せずに、BIRD ベンチマーク (開発) で 67.41\% という強力なパフォーマンスを達成します。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated impressive capabilities across a range of natural language processing tasks. In particular, improvements in reasoning abilities and the expansion of context windows have opened new avenues for leveraging these powerful models. NL2SQL is challenging in that the natural language question is inherently ambiguous, while the SQL generation requires a precise understanding of complex data schema and semantics. One approach to this semantic ambiguous problem is to provide more and sufficient contextual information. In this work, we explore the performance and the latency trade-offs of the extended context window (a.k.a., long context) offered by Google’s state-of-the-art LLM (\textit{gemini-1.5-pro}). We study the impact of various contextual information, including column example values, question and SQL query pairs, user-provided hints, SQL documentation, and schema. To the best of our knowledge, this is the first work to study how the extended context window and extra contextual information can help NL2SQL generation with respect to both accuracy and latency cost. We show that long context LLMs are robust and do not get lost in the extended contextual information. Additionally, our long-context NL2SQL pipeline based on Google’s \textit{gemini-pro-1.5} achieve a strong performance with 67.41\% on BIRD benchmark (dev) without finetuning and expensive self-consistency based techniques.
arxiv情報
著者 | Yeounoh Chung,Gaurav T. Kakkar,Yu Gan,Brenton Milne,Fatma Ozcan |
発行日 | 2025-01-21 18:52:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google