要約
検証可能な報酬(RLVR)による強化学習は、最近、トレーニング後の大手言語モデル(LLMS)の強力なパラダイムとして浮上し、構造化された検証可能な回答を伴うタスクで最先端のパフォーマンスを達成しました。
RLVRをマルチモーダルLLMS(MLLMS)に適用することは重要な機会をもたらしますが、微妙な視覚的、論理的、空間的能力を必要とする視覚言語タスクのより広範で不均一な性質によって複雑になります。
そのため、複数のデータセットでRLVRを使用してMLLMをトレーニングすることは有益ですが、多様なデータセット間の相互作用から矛盾する目標を伴う課題を生み出し、一般化と推論を改善するための最適なデータセット混合戦略の必要性を強調します。
厳密なデータ混合問題の定式化とベンチマークの実装を特徴とするマルチモーダルLLM RLVRの体系的なトレーニング後のフレームワークを紹介します。
具体的には、(1)さまざまな検証可能なビジョン言語の問題を含むデータセットをキュレーションし、検証可能な報酬を異なる異なる報酬でマルチドメインオンラインRL学習を可能にすることにより、トレーニング後のマルチデータセットのマルチモーダルRLVRフレームワークを開発しました。
(2)データ混合分布からRL微調整結果を予測することを学ぶデータ混合戦略を提案し、その結果、最適な混合物を最適化しました。
包括的な実験では、混合予測戦略と組み合わせると、マルチドメインRLVRトレーニングがMLLMの一般的な推論能力を大幅に高めることができることを示しています。
当社の最良の混合物は、分散外のベンチマークに対する訓練後のモデルの精度を改善し、均一なデータ混合物を使用した訓練後の同じモデルと比較して、平均5.24%、および事前に融合したベースラインと比較して合計20.74%を改善します。
要約(オリジナル)
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a powerful paradigm for post-training large language models (LLMs), achieving state-of-the-art performance on tasks with structured, verifiable answers. Applying RLVR to Multimodal LLMs (MLLMs) presents significant opportunities but is complicated by the broader, heterogeneous nature of vision-language tasks that demand nuanced visual, logical, and spatial capabilities. As such, training MLLMs using RLVR on multiple datasets could be beneficial but creates challenges with conflicting objectives from interaction among diverse datasets, highlighting the need for optimal dataset mixture strategies to improve generalization and reasoning. We introduce a systematic post-training framework for Multimodal LLM RLVR, featuring a rigorous data mixture problem formulation and benchmark implementation. Specifically, (1) We developed a multimodal RLVR framework for multi-dataset post-training by curating a dataset that contains different verifiable vision-language problems and enabling multi-domain online RL learning with different verifiable rewards; (2) We proposed a data mixture strategy that learns to predict the RL fine-tuning outcome from the data mixture distribution, and consequently optimizes the best mixture. Comprehensive experiments showcase that multi-domain RLVR training, when combined with mixture prediction strategies, can significantly boost MLLM general reasoning capacities. Our best mixture improves the post-trained model’s accuracy on out-of-distribution benchmarks by an average of 5.24% compared to the same model post-trained with uniform data mixture, and by a total of 20.74% compared to the pre-finetuning baseline.
arxiv情報
著者 | Yiqing Liang,Jielin Qiu,Wenhao Ding,Zuxin Liu,James Tompkin,Mengdi Xu,Mengzhou Xia,Zhengzhong Tu,Laixi Shi,Jiacheng Zhu |
発行日 | 2025-05-30 17:59:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google