要約
テーブルは、構造化された列列相互作用のために言語モデルのユニークな課題を提示し、効果的な理解のために特別なアプローチを必要とします。
大規模な言語モデル(LLMS)は、テーブルの推論と、考え方(COT)や思考プログラム(POT)などのテクニックを通じてテーブル推論に潜在的な可能性を示していますが、テーブル質問の回答のパフォーマンスを最適化することは目立たないままです。
この論文では、地域の証拠を推論ステップに統合することによりLLMテーブルの理解を高める新しい強化学習アプローチである地域ベースのTable-R1を紹介します。
私たちの方法では、領域強化された監視された微調整(再SFT)を使用して、回答を生成する前に関連するテーブル領域を特定するモデルを導き、テキスト、シンボリック、およびプログラムベースの推論を組み込みます。
さらに、テーブルアウェアグループの相対的なポリシー最適化(TARPO)は、領域の精度を動的にバランスさせ、正確性に応答する混合報酬システムを導入します。
実験では、Table-R1が3つのベンチマークデータセットの複数のベースモデルで14.36ポイントの平均パフォーマンス改善を達成し、パラメーターの10倍でベースラインモデルを上回ることさえ、TARPOはGRPOと比較して67.5%減少し、有効なタブラーの推論においてLLM機能を大幅に進めます。
要約(オリジナル)
Tables present unique challenges for language models due to their structured row-column interactions, necessitating specialized approaches for effective comprehension. While large language models (LLMs) have demonstrated potential in table reasoning through prompting and techniques like chain-of-thought (CoT) and program-of-thought (PoT), optimizing their performance for table question answering remains underexplored. In this paper, we introduce region-based Table-R1, a novel reinforcement learning approach that enhances LLM table understanding by integrating region evidence into reasoning steps. Our method employs Region-Enhanced Supervised Fine-Tuning (RE-SFT) to guide models in identifying relevant table regions before generating answers, incorporating textual, symbolic, and program-based reasoning. Additionally, Table-Aware Group Relative Policy Optimization (TARPO) introduces a mixed reward system to dynamically balance region accuracy and answer correctness, with decaying region rewards and consistency penalties to align reasoning steps. Experiments show that Table-R1 achieves an average performance improvement of 14.36 points across multiple base models on three benchmark datasets, even outperforming baseline models with ten times the parameters, while TARPO reduces response token consumption by 67.5% compared to GRPO, significantly advancing LLM capabilities in efficient tabular reasoning.
arxiv情報
著者 | Zhenhe Wu,Jian Yang,Jiaheng Liu,Xianjie Wu,Changzai Pan,Jie Zhang,Yu Zhao,Shuangyong Song,Yongxiang Li,Zhoujun Li |
発行日 | 2025-06-13 13:02:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google