Grounded Reinforcement Learning for Visual Reasoning

要約

思考チェーンを介した強化学習(RL)は、数学やコーディングなどのタスクで大幅に高度な言語モデルを持っていますが、視覚的推論は、モデルに視覚的注意を向け、知覚入力を解釈し、空間証拠の抽象的な推論を解釈することを要求することにより、追加の複雑さをもたらします。
RLで訓練されたビジョン言語モデルであるVigorl(視覚的に接地された強化学習)を紹介し、各推論ステップを特定の視覚座標に明示的に固定します。
人間の視覚的な意思決定に触発されたVigorlは、空間的に接地された推論の痕跡を生み出すことを学び、各ステップでタスク関連の領域に視覚的な注意を導きます。
細粒の探索が必要な場合、私たちの新しいマルチターンRLフレームワークにより、推論が展開するにつれて、モデルは予測座標に動的にズームインすることができます。
SAT-2を含む視覚的推論ベンチマークの多様なセットを横切って、空間的推論のための瞬き、V*ベンチの視覚検索のベンチ、Webベースの接地のためのScreenspotとVisualWebarenaは、監視された微調整と従来のRLベースラインの両方を一貫して上回ります。
マルチターンRLをズームインビジュアルフィードバックに組み込むことで、Vigorlの小さなGUI要素のローカル化と視覚検索に関するパフォーマンスが大幅に向上し、V*ベンチで86.4%を達成します。
さらに、接地は、地域の探索、接地されたサブゴール設定、視覚的検証など、他の視覚行動を増幅することがわかります。
最後に、人間の評価は、モデルの視覚的参照が空間的に正確であるだけでなく、モデルの推論ステップを理解するのにも役立つことを示しています。
我々の結果は、視覚的に接地されたRLが、一般的な視覚的推論にモデルを吸収するための強力なパラダイムであることを示しています。

要約(オリジナル)

While reinforcement learning (RL) over chains of thought has significantly advanced language models in tasks such as mathematics and coding, visual reasoning introduces added complexity by requiring models to direct visual attention, interpret perceptual inputs, and ground abstract reasoning in spatial evidence. We introduce ViGoRL (Visually Grounded Reinforcement Learning), a vision-language model trained with RL to explicitly anchor each reasoning step to specific visual coordinates. Inspired by human visual decision-making, ViGoRL learns to produce spatially grounded reasoning traces, guiding visual attention to task-relevant regions at each step. When fine-grained exploration is required, our novel multi-turn RL framework enables the model to dynamically zoom into predicted coordinates as reasoning unfolds. Across a diverse set of visual reasoning benchmarks–including SAT-2 and BLINK for spatial reasoning, V*bench for visual search, and ScreenSpot and VisualWebArena for web-based grounding–ViGoRL consistently outperforms both supervised fine-tuning and conventional RL baselines that lack explicit grounding mechanisms. Incorporating multi-turn RL with zoomed-in visual feedback significantly improves ViGoRL’s performance on localizing small GUI elements and visual search, achieving 86.4% on V*Bench. Additionally, we find that grounding amplifies other visual behaviors such as region exploration, grounded subgoal setting, and visual verification. Finally, human evaluations show that the model’s visual references are not only spatially accurate but also helpful for understanding model reasoning steps. Our results show that visually grounded RL is a strong paradigm for imbuing models with general-purpose visual reasoning.

arxiv情報

著者 Gabriel Sarch,Snigdha Saha,Naitik Khandelwal,Ayush Jain,Michael J. Tarr,Aviral Kumar,Katerina Fragkiadaki
発行日 2025-05-29 17:20:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク