要約
この作業では、テーブル推論タスクの推論時間スケーリングを調査する最初の研究を提示します。
推論時のスケーリングを有効にするために、2つのトレーニング後の戦略を開発および評価します。フロンティアモデルの推論トレースと検証可能な報酬(RLVR)による補強学習からの蒸留です。
蒸留のために、deepseek-R1によって生成された推論トレースの大規模なデータセットを導入します。
RLVRの場合、タスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを取得します。
ショートフォームQA、事実検証、自由形式QAなど、さまざまなテーブル推論タスク全体でテーブルR1シリーズモデルを評価します。
特に、Table-R1-Zeroモデルは、7B-Parameter LLMのみを使用しながら、GPT-4.1とDeepSeek-R1のパフォーマンスと一致するか、それを超えています。
また、ドメイン外データセットへの強力な一般化も示しています。
広範なアブレーションと定性的分析により、指導の調整、モデルアーキテクチャの選択、クロスタスクの一般化の利点、およびRLトレーニング中の必須のテーブル推論スキルの出現が明らかになりました。
要約(オリジナル)
In this work, we present the first study to explore inference-time scaling on table reasoning tasks. We develop and evaluate two post-training strategies to enable inference-time scaling: distillation from frontier model reasoning traces and reinforcement learning with verifiable rewards (RLVR). For distillation, we introduce a large-scale dataset of reasoning traces generated by DeepSeek-R1, which we use to fine-tune LLMs into the Table-R1-SFT model. For RLVR, we propose task-specific verifiable reward functions and apply the GRPO algorithm to obtain the Table-R1-Zero model. We evaluate our Table-R1-series models across diverse table reasoning tasks, including short-form QA, fact verification, and free-form QA. Notably, the Table-R1-Zero model matches or exceeds the performance of GPT-4.1 and DeepSeek-R1, while using only a 7B-parameter LLM. It also demonstrates strong generalization to out-of-domain datasets. Extensive ablation and qualitative analyses reveal the benefits of instruction tuning, model architecture choices, and cross-task generalization, as well as emergence of essential table reasoning skills during RL training.
arxiv情報
著者 | Zheyuan Yang,Lyuhao Chen,Arman Cohan,Yilun Zhao |
発行日 | 2025-05-29 16:28:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google