Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning

要約

視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たし、ドメイン固有のアプリケーションと人工的な一般情報(AGI)の両方を進めます。
既存の方法は、視覚的な推論機能を強化するために細心の注意を払って注釈付きトレーニングデータを使用して、チェーンオブ思考(COT)の監視微調整を介してVLMの推論を改善します。
ただし、このトレーニングパラダイムは、過剰適合および認知的剛性につながり、視覚的推論スキルをドメイン間で転送する能力を制限し、実際の適用性を制限する可能性があります。
これらの制限に対処するために、Reason-RFTを提案します。これは、視覚的推論タスクの一般化能力を大幅に強化する新しい強化微調整フレームワークです。
REASON-RFTは、視覚的推論のための2フェーズトレーニングフレームワークを導入します:(1)キュレーションされたチェーン(COT)データを使用した監視付き微調整(SFT)は、視覚言語モデル(VLMS)の推論の可能性をアクティブにし、その後、(2)グループ相対政策最適化(GRPO)ベースの補強学習が視覚化の視覚化を拡大する視覚化を促進する補強学習を生成します。
Reason-RFTの視覚的推論機能を評価するために、視覚カウント、構造知覚、および空間変換にまたがる包括的なデータセットを再構築しました。
実験結果は、推論RFTの3つの重要な利点を示しています。(1)パフォーマンスの強化:複数のタスクにわたって最先端の結果を達成し、ほとんどの主流のオープンソースと独自のモデルを上回ります。
(2)一般化の優位性:多様なタスクとドメイン全体で堅牢なパフォーマンスを一貫して維持し、代替トレーニングパラダイムを上回る。
(3)データ効率:フルデータセットSFTベースラインを上回りながら、少数のショット学習シナリオで優れています。
プロジェクトWebサイト:https://tanhuajie.github.io/ReasonRft

要約(オリジナル)

Visual reasoning abilities play a crucial role in understanding complex multimodal data, advancing both domain-specific applications and artificial general intelligence (AGI). Existing methods improve VLM reasoning via Chain-of-Thought (CoT) supervised fine-tuning, using meticulously annotated training data to enhance visual reasoning capabilities. However, this training paradigm may lead to overfitting and cognitive rigidity, restricting the model’s ability to transfer visual reasoning skills across domains and limiting its real-world applicability. To address these limitations, we propose Reason-RFT, a novel reinforcement fine-tuning framework that significantly enhances generalization capabilities in visual reasoning tasks. Reason-RFT introduces a two-phase training framework for visual reasoning: (1) Supervised Fine-Tuning (SFT) with curated Chain-of-Thought (CoT) data activates the reasoning potential of Vision-Language Models (VLMs), followed by (2) Group Relative Policy Optimization (GRPO)-based reinforcement learning that generates multiple reasoning-response pairs, significantly enhancing generalization in visual reasoning tasks. To evaluate Reason-RFT’s visual reasoning capabilities, we reconstructed a comprehensive dataset spanning visual counting, structure perception, and spatial transformation. Experimental results demonstrate Reasoning-RFT’s three key advantages: (1) Performance Enhancement: achieving state-of-the-art results across multiple tasks, outperforming most mainstream open-source and proprietary models; (2) Generalization Superiority: consistently maintaining robust performance across diverse tasks and domains, outperforming alternative training paradigms; (3) Data Efficiency: excelling in few-shot learning scenarios while surpassing full-dataset SFT baselines. Project website: https://tanhuajie.github.io/ReasonRFT

arxiv情報

著者 Huajie Tan,Yuheng Ji,Xiaoshuai Hao,Minglan Lin,Pengwei Wang,Zhongyuan Wang,Shanghang Zhang
発行日 2025-03-27 03:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク