要約
大規模なビジョン言語モデル(VLM)は、マルチモーダルの理解と推論に強力な能力を示していますが、主にテキストベースの推論プロセスによって制約されています。
ただし、人間の認知プロセスを反映する視覚的およびテキストの推論のシームレスな統合を達成することは、依然として重要な課題です。
特に、高度な視覚入力処理を推論メカニズムに効果的に組み込むことは、依然として未解決の問題です。
したがって、このホワイトペーパーでは、インターリーブマルチモーダル推論パラダイムを探索し、ディープエイズを導入します。これは、コールドスタートSFTを必要とせずにエンドツーエンドの強化学習を通じてインセンティブ化された「画像との思考」機能を備えたモデルです。
特に、この能力はモデル自体内でネイティブに出現し、個別の専門モデルに依存するのではなく、ツールとしての固有の接地能力を活用します。
具体的には、成功したツール支援の推論軌跡を促進するためのツール使用指向のデータ選択メカニズムと報酬戦略を提案します。
Deepeyesは、細かい知覚と推論ベンチマークで大きなパフォーマンスの向上を達成し、接地、幻覚、数学的推論のタスクの改善も示しています。
興味深いことに、初期探査から効率的かつ正確な搾取、および人間の視覚的推論プロセスを密接に反映する多様な思考パターンへのツールコール動作の明確な進化を観察します。
コードはhttps://github.com/visual-agent/deepeyesで入手できます。
要約(オリジナル)
Large Vision-Language Models (VLMs) have shown strong capabilities in multimodal understanding and reasoning, yet they are primarily constrained by text-based reasoning processes. However, achieving seamless integration of visual and textual reasoning which mirrors human cognitive processes remains a significant challenge. In particular, effectively incorporating advanced visual input processing into reasoning mechanisms is still an open question. Thus, in this paper, we explore the interleaved multimodal reasoning paradigm and introduce DeepEyes, a model with ‘thinking with images’ capabilities incentivized through end-to-end reinforcement learning without the need for cold-start SFT. Notably, this ability emerges natively within the model itself, leveraging its inherent grounding ability as a tool instead of depending on separate specialized models. Specifically, we propose a tool-use-oriented data selection mechanism and a reward strategy to encourage successful tool-assisted reasoning trajectories. DeepEyes achieves significant performance gains on fine-grained perception and reasoning benchmarks and also demonstrates improvement in grounding, hallucination, and mathematical reasoning tasks. Interestingly, we observe the distinct evolution of tool-calling behavior from initial exploration to efficient and accurate exploitation, and diverse thinking patterns that closely mirror human visual reasoning processes. Code is available at https://github.com/Visual-Agent/DeepEyes.
arxiv情報
著者 | Ziwei Zheng,Michael Yang,Jack Hong,Chenxiao Zhao,Guohai Xu,Le Yang,Chao Shen,Xing Yu |
発行日 | 2025-05-26 13:19:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google