要約
大規模なマルチモーダルモデル(LMMS)の推論の強化は、特に建築的制約が推論能力とモダリティアライメントを制限するコンパクトな3Bパラメーターアーキテクチャで、視覚的知覚と論理的推論の複雑な相互作用から独自の課題に直面しています。
ルールベースの強化学習(RL)はテキストのみのドメインに優れていますが、そのマルチモーダル拡張は2つの重要な障壁に直面しています:(1)曖昧な答えと希少な複雑な推論の例によるデータの制限、および(2)マルチモーダルな事前に誘発される基本的な推論を低下させます。
これらの課題に対処するために、\ textBf {Fondational Reasoning Enhancement(fre)}を介したマルチモーダル推論のルールベースのRLを適応させる2段階のフレームワークである\ textbf {lmm-r1}を提案します。
FREステージは、最初にルールベースのRLを使用したテキストのみのデータを使用して推論能力を強化し、次にMGTステージはこれらの推論機能をマルチモーダルドメインに一般化します。
QWEN2.5-VL-Instruct-3Bの実験は、LMM-R1がそれぞれマルチモーダルおよびテキストのみのベンチマークのベースラインで4.83 \%および4.5 \%の平均改善を達成し、複雑なフットボールゲームのタスクで3.63 \%のゲインを獲得することを示しています。
これらの結果は、テキストベースの推論強化により効果的なマルチモーダル一般化が可能になり、高品質のマルチモーダルトレーニングデータをバイパスするデータ効率の良いパラダイムを提供することを検証します。
要約(オリジナル)
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B-parameter architectures where architectural constraints limit reasoning capacity and modality alignment. While rule-based reinforcement learning (RL) excels in text-only domains, its multimodal extension confronts two critical barriers: (1) data limitations due to ambiguous answers and scarce complex reasoning examples, and (2) degraded foundational reasoning induced by multimodal pretraining. To address these challenges, we propose \textbf{LMM-R1}, a two-stage framework adapting rule-based RL for multimodal reasoning through \textbf{Foundational Reasoning Enhancement (FRE)} followed by \textbf{Multimodal Generalization Training (MGT)}. The FRE stage first strengthens reasoning abilities using text-only data with rule-based RL, then the MGT stage generalizes these reasoning capabilities to multimodal domains. Experiments on Qwen2.5-VL-Instruct-3B demonstrate that LMM-R1 achieves 4.83\% and 4.5\% average improvements over baselines in multimodal and text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game tasks. These results validate that text-based reasoning enhancement enables effective multimodal generalization, offering a data-efficient paradigm that bypasses costly high-quality multimodal training data.
arxiv情報
著者 | Yingzhe Peng,Gongrui Zhang,Miaosen Zhang,Zhiyuan You,Jie Liu,Qipeng Zhu,Kai Yang,Xingzhong Xu,Xin Geng,Xu Yang |
発行日 | 2025-03-11 03:32:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google