VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

要約

最近、Deepseek R1は、補強学習(RL)が、シンプルで効果的なデザインを通じて、大規模な言語モデル(LLMS)の推論能力を大幅に改善できることを示しています。
R1のコアは、そのルールベースの報酬の定式化にあります。これは、正確で安定した報酬計算を可能にするために、決定論的な根本的な回答でタスクを活用します。
視覚領域では、同様に、幅広い視覚的理解タスクには、明確に定義された根真根の注釈が本質的に装備されていることがわかります。
このプロパティにより、ルールベースの報酬メカニズムと自然に互換性があります。
この観察に動機付けられて、R1スタイルの強化学習の視覚的推論能力の強化を目指して、R1スタイルの強化学習(VLM)への拡張を調査します。
この目的のために、一般的なビジョン言語タスクでVLMSのパフォーマンスを向上させるためにRLを活用するために設計された専用のフレームワークであるVLM-R1を開発します。
このフレームワークを使用して、RLを視覚ドメインに適用する可能性をさらに調査します。
実験結果は、RLベースのモデルが視覚的理解タスクに関する競争力のあるパフォーマンスを提供するだけでなく、一般化能力の監視された微調整(SFT)を上回ることを示しています。
さらに、オブジェクトの検出における報酬ハッキングの存在、「OD AHAモーメント」の出現、データ品質のトレーニングの影響、異なるモデルサイズにわたるRLのスケーリング動作など、一連の注目すべき洞察を明らかにする包括的なアブレーション研究を実施します。
これらの分析を通じて、強化学習がビジョン言語モデルの能力を強化する方法の理解を深めることを目指しており、私たちの調査結果とオープンソースの貢献がビジョン言語RLコミュニティの継続的な進歩をサポートすることを願っています。
コードとモデルはhttps://github.com/om-ai-lab/vlm-r1で入手できます

要約(オリジナル)

Recently DeepSeek R1 has shown that reinforcement learning (RL) can substantially improve the reasoning capabilities of Large Language Models (LLMs) through a simple yet effective design. The core of R1 lies in its rule-based reward formulation, which leverages tasks with deterministic ground-truth answers to enable precise and stable reward computation. In the visual domain, we similarly observe that a wide range of visual understanding tasks are inherently equipped with well-defined ground-truth annotations. This property makes them naturally compatible with rule-based reward mechanisms. Motivated by this observation, we investigate the extension of R1-style reinforcement learning to Vision-Language Models (VLMs), aiming to enhance their visual reasoning capabilities. To this end, we develop VLM-R1, a dedicated framework designed to harness RL for improving VLMs’ performance on general vision-language tasks. Using this framework, we further explore the feasibility of applying RL to visual domain. Experimental results indicate that the RL-based model not only delivers competitive performance on visual understanding tasks but also surpasses Supervised Fine-Tuning (SFT) in generalization ability. Furthermore, we conduct comprehensive ablation studies that uncover a series of noteworthy insights, including the presence of reward hacking in object detection, the emergence of the ‘OD aha moment’, the impact of training data quality, and the scaling behavior of RL across different model sizes. Through these analyses, we aim to deepen the understanding of how reinforcement learning enhances the capabilities of vision-language models, and we hope our findings and open-source contributions will support continued progress in the vision-language RL community. Our code and model are available at https://github.com/om-ai-lab/VLM-R1

arxiv情報

著者 Haozhan Shen,Peng Liu,Jingcheng Li,Chunxin Fang,Yibo Ma,Jiajia Liao,Qiaoli Shen,Zilun Zhang,Kangjia Zhao,Qianqian Zhang,Ruochen Xu,Tiancheng Zhao
発行日 2025-04-10 10:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク