Auto-Cypher: Improving LLMs on Cypher generation via LLM-supervised generation-verification framework

要約

NEO4Jなどのグラフデータベースは、関係のモデリングとクエリの関係における従来のリレーショナルデータベースよりも、複雑で相互接続されたデータを処理するための人気を獲得しています。
自然言語をSQLクエリに翻訳することは十分に研究されていますが、NEO4JのCypherクエリを生成することは比較的目立たないままです。
この作業では、Text2cypherの高品質の合成データを生成するために、自動化されたLLMスーパーバイズのパイプラインを提示します。
Cypher Data Generation Pipelineは、Cypherのクエリの正しさを確保するための新しい戦略であるLLM-As-Database-Fillerを導入し、その結果、高品質の世代をもたらします。
パイプラインを使用して、高品質のText2Cypherデータを生成します – さまざまなドメインとクエリに29.8Kインスタンスを含むSynthcypherは、さまざまな複雑さを備えています。
シンセファーでLlama-3.1-8B、Mistral-7B、Qwen-7BなどのオープンソースLLMのトレーニングは、テキスト2Cypherテストの分割で最大40%、グラフデータベースに適応したスパイダーベンチマークで最大40%、30%のパフォーマンスを獲得します。

要約(オリジナル)

Graph databases like Neo4j are gaining popularity for handling complex, interconnected data, over traditional relational databases in modeling and querying relationships. While translating natural language into SQL queries is well-researched, generating Cypher queries for Neo4j remains relatively underexplored. In this work, we present an automated, LLM-Supervised, pipeline to generate high-quality synthetic data for Text2Cypher. Our Cypher data generation pipeline introduces LLM-As-Database-Filler, a novel strategy for ensuring Cypher query correctness, thus resulting in high quality generations. Using our pipeline, we generate high quality Text2Cypher data – SynthCypher containing 29.8k instances across various domains and queries with varying complexities. Training open-source LLMs like LLaMa-3.1-8B, Mistral-7B, and QWEN-7B on SynthCypher results in performance gains of up to 40% on the Text2Cypher test split and 30% on the SPIDER benchmark, adapted for graph databases.

arxiv情報

著者 Aman Tiwari,Shiva Krishna Reddy Malay,Vikas Yadav,Masoud Hashemi,Sathwik Tejaswi Madhusudhan
発行日 2025-01-24 05:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク