Semantic Captioning: Benchmark Dataset and Graph-Aware Few-Shot In-Context Learning for SQL2Text

要約

大規模言語モデル (LLM) は、自然言語を正式なコード表現に変換するセマンティック解析を含む、さまざまな NLP タスクで顕著なパフォーマンスを示しています。
しかし、セマンティック キャプションと呼ばれる、コードを自然言語に変換するその逆のプロセスは、あまり注目されていません。
LLM がコード生成、セキュリティ分析、教育目的でプラットフォームに統合されるにつれて、このタスクはますます重要になっています。
このペーパーでは、LLM で生成されたコードが潜在的なセキュリティ リスクを引き起こす時代において、SQL クエリを理解して説明するという重要なニーズに応えるために、SQL クエリ (SQL2Text) のキャプションに焦点を当てます。
GPT-4o を使用して複数の追加発話を生成する反復 ICL プロンプトを導入することで、Text2SQL データセットを SQL2Text 用に再利用し、逆タスクのデータセットの堅牢性を強化します。
私たちは、さまざまなサンプル選択方法に基づいたインコンテキスト学習 (ICL) を使用して実験を実施し、より小型で計算効率の高い LLM に重点を置いています。
私たちの調査結果は、ICL サンプル選択に SQL 固有のグラフ プロパティを活用すると、BLEU スコアでランダム選択よりも最大 39% 大幅に優れたパフォーマンスを示し、代替方法よりも優れた結果が得られることを示しています。
データセットとコードは \url{https://github.com/aliwister/ast-icl} で公開されています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable performance in various NLP tasks, including semantic parsing, which trans lates natural language into formal code representations. However, the reverse process, translating code into natural language, termed semantic captioning, has received less attention. This task is becoming increasingly important as LLMs are integrated into platforms for code generation, security analysis, and educational purposes. In this paper, we focus on the captioning of SQL query (SQL2Text) to address the critical need for understanding and explaining SQL queries in an era where LLM-generated code poses potential security risks. We repurpose Text2SQL datasets for SQL2Text by introducing an iterative ICL prompt using GPT-4o to generate multiple additional utterances, which enhances the robustness of the datasets for the reverse task. We conduct our experiments using in-context learning (ICL) based on different sample selection methods, emphasizing smaller, more computationally efficient LLMs. Our findings demonstrate that leveraging the inherent graph properties of SQL for ICL sample selection significantly outperforms random selection by up to 39% on BLEU score and provides better results than alternative methods. Dataset and codes are published: \url{https://github.com/aliwister/ast-icl}.

arxiv情報

著者 Ali Al-Lawati,Jason Lucas,Prasenjit Mitra
発行日 2025-01-06 17:36:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク