Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

要約

DeepSeek-R1-Zeroは、補強学習(RL)を通じて純粋にLLMSの推論能力の出現を成功裏に実証しました。
このブレークスルーに触発されて、MLLMの推論能力を高めるためにRLをどのように利用できるかを探ります。
ただし、RLを使用した直接トレーニングは、実質的な高品質のマルチモーダル推論データがないため、MLLMSでの質問や反省などの複雑な推論機能をアクティブにするのに苦労しています。
この問題に対処するために、マルチモーダル推論能力を改善するために、MLLM、Vision-R1の推論を提案します。
具体的には、最初に、既存のMLLMとDeepSeek-R1をモダリティブリッジングとデータフィルタリングを通じて、200KマルチモーダルCOTデータセット、Vision-R1-Cold Datasetを取得することにより、人間の注釈なしで高品質のマルチモーダルCOTデータセットを構築します。
Vision-R1のコールドスタート初期化データとして機能します。
コールドスタート後の考え直しによって引き起こされる最適化の課題を軽減するために、進歩的な思考抑制トレーニング(PTST)戦略を提案し、グループ相対ポリシー最適化(GRPO)をハードフォーマット結果報酬機能で採用して、10Kマルチモーダル数学データセットで正確で複雑な推論プロセスを学習するモデルの能力を徐々に改善します。
包括的な実験では、私たちのモデルが、さまざまなマルチモーダル数学推論ベンチマークにわたって$ \ sim $ 6%の平均改善を達成することを示しています。
Vision-R1-7Bは、広く使用されているMathvistaベンチマークで73.5%の精度を達成します。これは、主要な推論モデルであるOpenai O1よりもわずか0.4%低いです。
データセットとコードは、https://github.com/osilly/vision-r1でリリースされます。

要約(オリジナル)

DeepSeek-R1-Zero has successfully demonstrated the emergence of reasoning capabilities in LLMs purely through Reinforcement Learning (RL). Inspired by this breakthrough, we explore how RL can be utilized to enhance the reasoning capability of MLLMs. However, direct training with RL struggles to activate complex reasoning capabilities such as questioning and reflection in MLLMs, due to the absence of substantial high-quality multimodal reasoning data. To address this issue, we propose the reasoning MLLM, Vision-R1, to improve multimodal reasoning capability. Specifically, we first construct a high-quality multimodal CoT dataset without human annotations by leveraging an existing MLLM and DeepSeek-R1 through modality bridging and data filtering to obtain a 200K multimodal CoT dataset, Vision-R1-cold dataset. It serves as cold-start initialization data for Vision-R1. To mitigate the optimization challenges caused by overthinking after cold start, we propose Progressive Thinking Suppression Training (PTST) strategy and employ Group Relative Policy Optimization (GRPO) with the hard formatting result reward function to gradually refine the model’s ability to learn correct and complex reasoning processes on a 10K multimodal math dataset. Comprehensive experiments show our model achieves an average improvement of $\sim$6% across various multimodal math reasoning benchmarks. Vision-R1-7B achieves a 73.5% accuracy on the widely used MathVista benchmark, which is only 0.4% lower than the leading reasoning model, OpenAI O1. The datasets and code will be released in: https://github.com/Osilly/Vision-R1 .

arxiv情報

著者 Wenxuan Huang,Bohan Jia,Zijie Zhai,Shaosheng Cao,Zheyu Ye,Fei Zhao,Zhe Xu,Yao Hu,Shaohui Lin
発行日 2025-03-11 09:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク