VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

要約

最近、GPT-o1やDeepSeek-R1のようなゆっくり考えるシステムは、明示的なリフレクションによって困難な問題を解くことに大きな可能性を示している。GPT-o1やDeepSeek-R1は、様々な数学や科学のベンチマークにおいて、GPT-4oのような最良の高速推論モデルを大幅に上回っている。しかし、彼らのマルチモーダル推論能力は、速思考モデルと同等に留まっている。例えば、MathVista、MathVerse、MathVisionのようなベンチマークにおけるGPT-o1の性能は、高速推論モデルと同程度である。本稿では、(蒸留に頼ることなく)強化学習を用いて、視覚言語モデルのゆっくり考える能力を強化し、最先端の技術を進歩させることを目指す。まず、GRPOアルゴリズムに、選択的サンプル再生(Selective Sample Replay: SSR)と呼ばれる新しい手法を適応し、消失する長所問題に対処する。このアプローチは強力な性能をもたらすが、結果として得られるRL学習済みモデルは、限定的な自己反省や自己検証を示す。さらにゆっくり考えることを奨励するために、RLトレーニングのロールアウトの最後に再考トリガートークンを付加する強制再考を導入し、自己反省推論ステップを明示的に強制する。これら2つのテクニックを組み合わせることで、我々のモデルVL-RethinkerはMathVista、MathVerseでそれぞれ80.4%、63.5%という最先端のスコアを達成した。また、VL-Rethinkerは、MathVision、MMMU-Pro、EMMA、MEGA-Benchといった多分野のベンチマークにおいて、オープンソースのSoTAを達成し、OpenAI-o1との差を縮めました。我々の実証結果は、我々のアプローチの有効性を示しています。

要約(オリジナル)

Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated great potential in solving challenging problems through explicit reflection. They significantly outperform the best fast-thinking models, such as GPT-4o, on various math and science benchmarks. However, their multimodal reasoning capabilities remain on par with fast-thinking models. For instance, GPT-o1’s performance on benchmarks like MathVista, MathVerse, and MathVision is similar to fast-thinking models. In this paper, we aim to enhance the slow-thinking capabilities of vision-language models using reinforcement learning (without relying on distillation) to advance the state of the art. First, we adapt the GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to address the vanishing advantages problem. While this approach yields strong performance, the resulting RL-trained models exhibit limited self-reflection or self-verification. To further encourage slow-thinking, we introduce Forced Rethinking, which appends a rethinking trigger token to the end of rollouts in RL training, explicitly enforcing a self-reflection reasoning step. By combining these two techniques, our model, VL-Rethinker, advances state-of-the-art scores on MathVista, MathVerse to achieve 80.4%, 63.5% respectively. VL-Rethinker also achieves open-source SoTA on multi-disciplinary benchmarks such as MathVision, MMMU-Pro, EMMA, and MEGA-Bench, narrowing the gap with OpenAI-o1. Our empirical results show the effectiveness of our approaches.

arxiv情報

著者 Haozhe Wang,Chao Qu,Zuming Huang,Wei Chu,Fangzhen Lin,Wenhu Chen
発行日 2025-05-05 12:49:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク