要約
テーブルは、データを整理および分析するための基本的な構造であり、インテリジェントシステムの重要な機能を理解する効果的なテーブルを実現します。
大規模な言語モデル(LMS)は強力な一般的な推論能力を示していますが、特に複雑なシナリオでは、表形式データに対する正確な数値的または象徴的な推論と闘い続けています。
スプレッドシート式は、実行可能なシンボリック操作を表現するための強力で表現力豊かな媒体を提供し、ほとんど十分に十分ではないままの豊富な推論パターンをエンコードします。
このホワイトペーパーでは、LMSを訓練する強化学習(RL)フレームワークであるフォーミュラチューニング(Fortune)を提案します。
フォーミュラチューニングは、バイナリの回答の正確性を報酬信号として使用し、推論を通してフォーミュラの導出を学習するように導くことにより、監督されたフォーミュラアノテーションへの依存を減らします。
私たちは、その利点の理論的分析を提供し、7つのテーブル推論ベンチマークでの広範な実験を通じてその有効性を実証します。
フォーミュラチューニングは、特にマルチステップ数値および象徴的な推論タスクでLMパフォーマンスを大幅に向上させ、7Bモデルがテーブルの理解でO1を上回ることができます。
これは、フォーミュラ駆動型RLがLMSの象徴的なテーブル推論を進める可能性を強調しています。
要約(オリジナル)
Tables are a fundamental structure for organizing and analyzing data, making effective table understanding a critical capability for intelligent systems. While large language models (LMs) demonstrate strong general reasoning abilities, they continue to struggle with accurate numerical or symbolic reasoning over tabular data, especially in complex scenarios. Spreadsheet formulas provide a powerful and expressive medium for representing executable symbolic operations, encoding rich reasoning patterns that remain largely underutilized. In this paper, we propose Formula Tuning (Fortune), a reinforcement learning (RL) framework that trains LMs to generate executable spreadsheet formulas for question answering over general tabular data. Formula Tuning reduces the reliance on supervised formula annotations by using binary answer correctness as a reward signal, guiding the model to learn formula derivation through reasoning. We provide a theoretical analysis of its advantages and demonstrate its effectiveness through extensive experiments on seven table reasoning benchmarks. Formula Tuning substantially enhances LM performance, particularly on multi-step numerical and symbolic reasoning tasks, enabling a 7B model to outperform O1 on table understanding. This highlights the potential of formula-driven RL to advance symbolic table reasoning in LMs.
arxiv情報
著者 | Lang Cao,Jingxian Xu,Hanbing Liu,Jinyu Wang,Mengyu Zhou,Haoyu Dong,Shi Han,Dongmei Zhang |
発行日 | 2025-05-29 17:13:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google