Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning

要約

一般的な推論能力を学習することは、AIで長い間挑戦的な問題でした。
DeepSeek-R1などの大規模な言語モデル(LLMS)の最近の研究では、GRPOなどの強化学習手法により、事前に訓練されたLLMが単純な質問回答ペアを使用して推論機能を開発できることが示されています。
この論文では、明示的なチェーン(COT)の監督なしに、強化学習と視覚的な質問回答ペアを通じて画像データの推論を実行するために、視覚言語モデル(VLM)を訓練することを目指しています。
我々の調査結果は、単に補強学習をVLMに適用するだけで – 回答を提供する前にモデルに推論チェーンを生成するように促すことにより、モデルが簡単な質問からショートカットを開発するように導き、それにより目に見えないデータ分布全体に一般化する能力を低下させることを示しています。
ショートカット学習を緩和する鍵は、推論の前にモデルが画像を解釈するよう奨励することであると主張します。
したがって、モデルをトレーニングして、キャプションリーズシーズンの出力形式に準拠しています。最初は画像の詳細なキャプションを生成し、その後、広範な推論チェーンを構築します。
273kのコットフリーの視覚的質問ペアで訓練され、補強学習のみを使用すると、Visionary-R1という名前のモデルは、複数の視覚的推論ベンチマークでGPT-4O、Claude3.5-Sonnet、Gemini-1.5-Proなどの強力なマルチモーダルモデルよりも優れています。

要約(オリジナル)

Learning general-purpose reasoning capabilities has long been a challenging problem in AI. Recent research in large language models (LLMs), such as DeepSeek-R1, has shown that reinforcement learning techniques like GRPO can enable pre-trained LLMs to develop reasoning capabilities using simple question-answer pairs. In this paper, we aim to train visual language models (VLMs) to perform reasoning on image data through reinforcement learning and visual question-answer pairs, without any explicit chain-of-thought (CoT) supervision. Our findings indicate that simply applying reinforcement learning to a VLM — by prompting the model to produce a reasoning chain before providing an answer — can lead the model to develop shortcuts from easy questions, thereby reducing its ability to generalize across unseen data distributions. We argue that the key to mitigating shortcut learning is to encourage the model to interpret images prior to reasoning. Therefore, we train the model to adhere to a caption-reason-answer output format: initially generating a detailed caption for an image, followed by constructing an extensive reasoning chain. When trained on 273K CoT-free visual question-answer pairs and using only reinforcement learning, our model, named Visionary-R1, outperforms strong multimodal models, such as GPT-4o, Claude3.5-Sonnet, and Gemini-1.5-Pro, on multiple visual reasoning benchmarks.

arxiv情報

著者 Jiaer Xia,Yuhang Zang,Peng Gao,Yixuan Li,Kaiyang Zhou
発行日 2025-05-20 17:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク