Semantic Parsing for Complex Data Retrieval: Targeting Query Plans vs. SQL for No-Code Access to Relational Databases

要約

大規模言語モデル (LLM) は、与えられたデータベース スキーマに基づいて自然言語の質問から SQL クエリを生成するタスクである text-to-SQL の進歩に拍車をかけています。
SQL は宣言的な性質にもかかわらず、依然として複雑なプログラミング言語です。
このペーパーでは、より単純な構文と複雑なクエリのモジュール仕様を備えた代替クエリ言語の可能性を調査します。
その目的は、最新のニューラル セマンティック解析アーキテクチャによってより簡単に学習できるクエリ言語を作成すると同時に、プログラマ以外のユーザーでも対話型のクエリ プラン アシスタントによって生成されたクエリ プランの妥当性をより適切に評価できるようにすることです。
提案された代替クエリ言語は、クエリ プラン言語 (QPL) と呼ばれます。
これはモジュール式に設計されており、制限された形式の SQL Common Table Expressions (CTE) に変換できます。
QPL の目的は、ユーザーが自然言語で質問を表現できるようにすると同時に、検証しやすいターゲット言語を提供することで、プログラマーでなくても複雑なデータ検索にアクセスできるようにすることです。
この論文では、ニューラル LLM が QPL のモジュール性からどのように恩恵を受け、構成的な方法で複雑なクエリ プランを生成できるかを示します。
これには、質問の分解戦略と計画段階が含まれます。
QPL に変換されたバージョンの Spider text-to-SQL データセットで実験を実施します。
QPL プログラムの階層構造により、クエリの複雑さを自然に測定できます。
この評価に基づいて、複雑な構成クエリに対する既存の text-to-SQL システムの精度が低いことを特定します。
私たちは、微調整された LLM とさまざまなプロンプト戦略を構成的に使用して、反復的かつユーザー制御の方法で複雑なクエリの課題に対処する方法を紹介します。

要約(オリジナル)

Large Language Models (LLMs) have spurred progress in text-to-SQL, the task of generating SQL queries from natural language questions based on a given database schema. Despite the declarative nature of SQL, it continues to be a complex programming language. In this paper, we investigate the potential of an alternative query language with simpler syntax and modular specification of complex queries. The purpose is to create a query language that can be learned more easily by modern neural semantic parsing architectures while also enabling non-programmers to better assess the validity of the query plans produced by an interactive query plan assistant. The proposed alternative query language is called Query Plan Language (QPL). It is designed to be modular and can be translated into a restricted form of SQL Common Table Expressions (CTEs). The aim of QPL is to make complex data retrieval accessible to non-programmers by allowing users to express their questions in natural language while also providing an easier-to-verify target language. The paper demonstrates how neural LLMs can benefit from QPL’s modularity to generate complex query plans in a compositional manner. This involves a question decomposition strategy and a planning stage. We conduct experiments on a version of the Spider text-to-SQL dataset that has been converted to QPL. The hierarchical structure of QPL programs enables us to measure query complexity naturally. Based on this assessment, we identify the low accuracy of existing text-to-SQL systems on complex compositional queries. We present ways to address the challenge of complex queries in an iterative, user-controlled manner, using fine-tuned LLMs and a variety of prompting strategies in a compositional manner.

arxiv情報

著者 Ben Eyal,Amir Bachar,Ophir Haroche,Michael Elhadad
発行日 2023-12-22 16:16:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク