Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation

要約

Large Language Model (LLM) は、Text-to-SQL タスクを推進するための強力なツールとして登場し、従来の方法を大幅に上回ります。
それにもかかわらず、初期の研究分野であるため、最適なプロンプト テンプレートとデザイン フレームワークについてはまだコンセンサスが得られていません。
さらに、既存のベンチマークでは、Text-to-SQL プロセスのさまざまなサブタスクにわたる LLM のパフォーマンスの調査が不十分であり、LLM の認知機能の評価と LLM ベースのソリューションの最適化が妨げられています。
前述の問題に対処するために、まず LLM の過剰適合のリスクを軽減するように設計された新しいデータセットを構築します。
次に、Text-to-SQL プロセス全体を通じて、さまざまな LLM にわたる多様な手法のパフォーマンスを包括的に評価する 5 つの評価タスクを定式化します。私たちの研究では、LLM 間のパフォーマンスの差異を明らかにし、各タスクに合わせた最適なインコンテキスト学習ソリューションを提案します。
これらの調査結果は、LLM ベースの Text-to-SQL システムの開発を強化するための貴重な洞察を提供します。

要約(オリジナル)

Large Language Models (LLMs) have emerged as a powerful tool in advancing the Text-to-SQL task, significantly outperforming traditional methods. Nevertheless, as a nascent research field, there is still no consensus on the optimal prompt templates and design frameworks. Additionally, existing benchmarks inadequately explore the performance of LLMs across the various sub-tasks of the Text-to-SQL process, which hinders the assessment of LLMs’ cognitive capabilities and the optimization of LLM-based solutions. To address the aforementioned issues, we firstly construct a new dataset designed to mitigate the risk of overfitting in LLMs. Then we formulate five evaluation tasks to comprehensively assess the performance of diverse methods across various LLMs throughout the Text-to-SQL process.Our study highlights the performance disparities among LLMs and proposes optimal in-context learning solutions tailored to each task. These findings offer valuable insights for enhancing the development of LLM-based Text-to-SQL systems.

arxiv情報

著者 Bin Zhang,Yuxiao Ye,Guoqing Du,Xiaoru Hu,Zhishuai Li,Sun Yang,Chi Harold Liu,Rui Zhao,Ziyue Li,Hangyu Mao
発行日 2024-03-06 08:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク