Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models

要約

表の推論(TR)には、半構造化された表形式データに対する構造化された推論が必要であり、特に大規模なLMS(LLMS、GPT-4Oなど)と比較して容量が限られているため、特に小言語モデル(SLM、llama-8bなど)の場合は困難なままです。
このギャップを狭めるために、実行可能なプログラムを生成することにより、特に数値的推論でテキストベースのTR(T-TR)の重要な制限を回避するプログラムベースのTR(P-TR)を探索します。
ただし、P-TRをSLMSに適用すると、2つの課題が導入されます。(i)テーブルレイアウトの不均一性に対する脆弱性、および(ii)コード生成機能が限られているための推論における矛盾。
SLMS向けに設計された2段階のP-TRメソッドであるTable-R1を提案します。
ステージ1では、プログラムビューから表形式のレイアウト一般化を改善するために、革新的な自己監視学習タスク、レイアウト変換推論を紹介します。
ステージ2では、グループ相対ポリシーの最適化の混合パラダイムバリアントを採用し、必要に応じてダイナミックフォールバックをT-TRに動的にしながら、P-TRの一貫性を高めます。
4つのTRベンチマークでの実験は、Table-R1がすべてのSLMベースの方法よりも優れていることを示しており、すべてのデータセットでベースモデル(LLAMA-8B)よりも少なくとも15%の精度改善を達成し、LLMSとの競争力のあるパフォーマンスに到達します。

要約(オリジナル)

Table reasoning (TR) requires structured reasoning over semi-structured tabular data and remains challenging, particularly for small language models (SLMs, e.g., LLaMA-8B) due to their limited capacity compared to large LMs (LLMs, e.g., GPT-4o). To narrow this gap, we explore program-based TR (P-TR), which circumvents key limitations of text-based TR (T-TR), notably in numerical reasoning, by generating executable programs. However, applying P-TR to SLMs introduces two challenges: (i) vulnerability to heterogeneity in table layouts, and (ii) inconsistency in reasoning due to limited code generation capability. We propose Table-r1, a two-stage P-TR method designed for SLMs. Stage 1 introduces an innovative self-supervised learning task, Layout Transformation Inference, to improve tabular layout generalization from a programmatic view. Stage 2 adopts a mix-paradigm variant of Group Relative Policy Optimization, enhancing P-TR consistency while allowing dynamic fallback to T-TR when needed. Experiments on four TR benchmarks demonstrate that Table-r1 outperforms all SLM-based methods, achieving at least a 15% accuracy improvement over the base model (LLaMA-8B) across all datasets and reaching performance competitive with LLMs.

arxiv情報

著者 Rihui Jin,Zheyu Xin,Xing Xie,Zuoyi Li,Guilin Qi,Yongrui Chen,Xinbang Dai,Tongtong Wu,Gholamreza Haffari
発行日 2025-06-06 14:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク