要約
スキーマリンクは、特定の質問に基づいてSQLクエリに必要なテーブル名と列名を正確に予測することを目的としています。
ただし、スキーマリンクモデルの現在の微調整アプローチでは、暗記パラダイムが採用されており、推論能力を妥協しながら結果をリンクするグラウンドトゥルーススキーマを過度に最適化しています。
この制限は、ダウンストリームタスクの高品質の推論サンプルを取得するのが難しいために発生します。
これに対処するために、補強学習を使用して訓練されたモデルをリンクする推論スキーマであるスキーマ-R1を提案します。
具体的には、スキーマ-R1は、高品質の推論サンプルの小さなバッチの構築、コールドスタート初期化のための監視付き微調整、およびルールベースの強化学習トレーニングの3つの重要なステップで構成されています。
最終結果は、この方法がスキーマリンクモデルの推論能力を効果的に強化し、既存の方法と比較してフィルター精度が10 \%改善されることを示しています。
私たちのコードは、https://github.com/hongwin/schema-r1/で入手できます。
要約(オリジナル)
Schema linking is a critical step in Text-to-SQL task, aiming to accurately predict the table names and column names required for the SQL query based on the given question. However, current fine-tuning approaches for schema linking models employ a rote-learning paradigm, excessively optimizing for ground truth schema linking outcomes while compromising reasoning ability. This limitation arises because of the difficulty in acquiring a high-quality reasoning sample for downstream tasks. To address this, we propose Schema-R1, a reasoning schema linking model trained using reinforcement learning. Specifically, Schema-R1 consists of three key steps: constructing small batches of high-quality reasoning samples, supervised fine-tuning for cold-start initialization, and rule-based reinforcement learning training. The final results demonstrate that our method effectively enhances the reasoning ability of the schema linking model, achieving a 10\% improvement in filter accuracy compared to the existing method. Our code is available at https://github.com/hongWin/Schema-R1/.
arxiv情報
著者 | Wuzhenghong Wen,Su Pan,yuwei Sun |
発行日 | 2025-06-13 17:46:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google