要約
データの量と複雑さは急速に増大しています。
データベース クエリ言語の習熟度は、効果的なクエリを作成するために極めて重要です。
コーディング アシスタントが普及するにつれ、データベース クエリ言語を強化する大きな機会が生まれます。
Kusto クエリ言語 (KQL) は、ビッグ データ分析プラットフォームのログ、テレメトリ、時系列などの大規模な半構造化データに対して広く使用されているクエリ言語です。
このペーパーでは、大規模言語モデル (LLM) を使用して自然言語クエリ (NLQ) を KQL クエリに変換する革新的なフレームワークである NL2KQL を紹介します。
提案された NL2KQL フレームワークには、いくつかの重要なコンポーネントが含まれています。 スキーマを最も関連性の高い要素に絞り込むスキーマ リファイナー。
少数ショット データセットから関連するサンプルを動的に選択する少数ショット セレクター。
もう 1 つは、KQL クエリの構文エラーと意味エラーを修復するクエリ リファイナーです。
さらに、この研究では、特定のデータベース コンテキスト内で有効な合成 NLQ-KQL ペアの大規模なデータセットを生成する方法の概要を説明します。
NL2KQL のパフォーマンスを検証するために、オンライン (クエリ実行に基づく) およびオフライン (クエリ解析に基づく) メトリックの配列を利用します。
アブレーション研究を通じて、フレームワークの各コンポーネントの重要性が検討され、ベンチマークに使用されたデータセットが公開されます。
この研究はこの種のものとしては初めてであり、その有効性を実証するために利用可能なベースラインと比較されます。
要約(オリジナル)
Data is growing rapidly in volume and complexity. Proficiency in database query languages is pivotal for crafting effective queries. As coding assistants become more prevalent, there is significant opportunity to enhance database query languages. The Kusto Query Language (KQL) is a widely used query language for large semi-structured data such as logs, telemetries, and time-series for big data analytics platforms. This paper introduces NL2KQL an innovative framework that uses large language models (LLMs) to convert natural language queries (NLQs) to KQL queries. The proposed NL2KQL framework includes several key components: Schema Refiner which narrows down the schema to its most pertinent elements; the Few-shot Selector which dynamically selects relevant examples from a few-shot dataset; and the Query Refiner which repairs syntactic and semantic errors in KQL queries. Additionally, this study outlines a method for generating large datasets of synthetic NLQ-KQL pairs which are valid within a specific database contexts. To validate NL2KQL’s performance, we utilize an array of online (based on query execution) and offline (based on query parsing) metrics. Through ablation studies, the significance of each framework component is examined, and the datasets used for benchmarking are made publicly available. This work is the first of its kind and is compared with available baselines to demonstrate its effectiveness.
arxiv情報
著者 | Xinye Tang,Amir H. Abdi,Jeremias Eichelbaum,Mahan Das,Alex Klein,Nihal Irmak Pakis,William Blum,Daniel L Mace,Tanvi Raja,Namrata Padmanabhan,Ye Xing |
発行日 | 2025-01-17 03:19:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google