GenEdit: Compounding Operators and Continuous Improvement to Tackle Text-to-SQL in the Enterprise

要約

大規模な言語モデルによって推進されるテキストからSQLの最近の進歩は、データアクセスを民主化しています。
これらの進歩にもかかわらず、企業固有の知識を把握し、複雑なクエリを処理し、継続的な改善の期待を満たす必要があるため、エンタープライズの展開は依然として困難です。
これらの問題に対処するために、Genedit:ユーザーフィードバックで改善するテキストからSQLの生成システムを設計および実装しました。
Geneditは、企業固有の知識セットを構築および維持し、SQL生成を分解するオペレーターのパイプラインを採用し、フィードバックを使用して知識セットを更新して将来のSQL世代を改善します。
2つのコアモジュールで作成されたGeneditのアーキテクチャについて説明します。(i)分解されたSQL生成。
(ii)ユーザーフィードバックに基づいて知識セットの編集。
ジェネレーションのために、Geneditは、知識の検索を改善し、世代を導く考え方のステップとして計画を作成するために、オペレーターを複利を活用します。
Geneditは、元のSQLクエリがサブステートメント、条項、またはサブQuerieに分解される初期検索段階で、関連する例を最初に取得します。
また、指示とスキーマ要素も取得します。
取得したコンテキスト情報を使用して、Geneditはクエリの作成方法について自然言語で段階的な計画を生成します。
最後に、Geneditは計画を使用してSQLを生成し、モデル推論の必要性を最小限に抑え、複雑なSQL生成を強化します。
必要に応じて、Geneditは構文エラーとセマンティックエラーに基づいてクエリを再生します。
ナレッジセットの編集は、インタラクティブな副操縦士を介して推奨され、ユーザーがフィードバックを反復し、必要に応じてSQLクエリを再生できます。
各世代は、生成プロンプトを更新する段階的な編集を使用します。
フィードバックが送信されると、回帰テストに合格して承認を取得した後にマージされ、将来の世代が改善されます。

要約(オリジナル)

Recent advancements in Text-to-SQL, driven by large language models, are democratizing data access. Despite these advancements, enterprise deployments remain challenging due to the need to capture business-specific knowledge, handle complex queries, and meet expectations of continuous improvements. To address these issues, we designed and implemented GenEdit: our Text-to-SQL generation system that improves with user feedback. GenEdit builds and maintains a company-specific knowledge set, employs a pipeline of operators decomposing SQL generation, and uses feedback to update its knowledge set to improve future SQL generations. We describe GenEdit’s architecture made of two core modules: (i) decomposed SQL generation; and (ii) knowledge set edits based on user feedback. For generation, GenEdit leverages compounding operators to improve knowledge retrieval and to create a plan as chain-of-thought steps that guides generation. GenEdit first retrieves relevant examples in an initial retrieval stage where original SQL queries are decomposed into sub-statements, clauses or sub-queries. It then also retrieves instructions and schema elements. Using the retrieved contextual information, GenEdit then generates step-by-step plan in natural language on how to produce the query. Finally, GenEdit uses the plan to generate SQL, minimizing the need for model reasoning, which enhances complex SQL generation. If necessary, GenEdit regenerates the query based on syntactic and semantic errors. The knowledge set edits are recommended through an interactive copilot, allowing users to iterate on their feedback and to regenerate SQL queries as needed. Each generation uses staged edits which update the generation prompt. Once the feedback is submitted, it gets merged after passing regression testing and obtaining an approval, improving future generations.

arxiv情報

著者 Karime Maamari,Connor Landy,Amine Mhedhbi
発行日 2025-03-27 15:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク