要約
本研究では、Text-to-SQLタスクを、従来のクエリ生成に重点を置くのではなく、大規模言語モデル(LLM)に表データを推論し操作することを教えるための経路として再定義する。我々は、移植可能なテーブル推論能力を開発するためにSQL監視を活用する2段階のフレームワークを提案する。第一に、実世界のSQLクエリから詳細な思考連鎖(CoT)トレースを合成し、テーブルフィールドのトラバース、フィルタリング、集約の方法をモデルに教える、ステップバイステップの節レベルの監視を提供する。第二に、タスクに特化した構文を超え、データセットにまたがって拡張するステップを奨励することで、SQLの実行精度を汎化可能な推論に結びつける、グループ相対的ポリシー最適化(GRPO)強化学習目的を導入する。経験的に、我々のアプローチは、標準的なText-to-SQLベンチマークの性能を向上させ、BIRDやCRT-QAのような推論集約的なデータセットで大幅な向上を達成し、汎化と解釈可能性の向上を実証した。特に、Text-to-SQLタスクで訓練した場合、蒸留量子化LLaMAモデルは相対的に33.9%の精度向上を達成し、Qwenは相対的に14.5%の向上を達成した。これらの結果は、SQLが目標とする形式論としてだけでなく、構造化データに対するロバストで転送可能な推論を学習するための効果的な足場としても機能することを示唆している。
要約(オリジナル)
This work reframes the Text-to-SQL task as a pathway for teaching large language models (LLMs) to reason over and manipulate tabular data–moving beyond the traditional focus on query generation. We propose a two-stage framework that leverages SQL supervision to develop transferable table reasoning capabilities. First, we synthesize detailed chain-of-thought (CoT) traces from real-world SQL queries, providing step-by-step, clause-level supervision that teaches the model how to traverse, filter, and aggregate table fields. Second, we introduce a Group Relative Policy Optimization (GRPO) reinforcement learning objective that connects SQL execution accuracy to generalizable reasoning by encouraging steps that extend beyond task-specific syntax and transfer across datasets. Empirically, our approach improves performance on standard Text-to-SQL benchmarks and achieves substantial gains on reasoning-intensive datasets such as BIRD and CRT-QA, demonstrating enhanced generalization and interpretability. Specifically, the distilled-quantized LLaMA model achieved a relative 33.9\% increase in accuracy when trained on Text-to-SQL tasks, while Qwen achieved a relative 14.5\% increase. These results suggest that SQL can serve not only as a target formalism but also as an effective scaffold for learning robust, transferable reasoning over structured data.
arxiv情報
| 著者 | Josefa Lia Stoisser,Marc Boubnovski Martell,Julien Fauqueur |
| 発行日 | 2025-05-02 11:34:00+00:00 |
| arxivサイト | arxiv_id(pdf) |