VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

要約

強化学習Finetuning（RFT）は、長い思考、自己修正、および効果的なツール使用を可能にすることにより、大規模な言語モデル（LLM）の推論能力を大幅に進めました。
最近の研究では、RFTをVision言語モデル（VLM）に拡張しようとしていますが、これらの取り組みは、主に静的画像入力を条件付けられたテキストのみの推論を生成し、応答の真のマルチモーダル推論に及ばない。
対照的に、Visual SketchPadなどのテスト時間方法には視覚的な手順が組み込まれていますが、トレーニングメカニズムがありません。
VTOOL-R1を紹介します。これは、VLMSを訓練して、テキストと中間の視覚的推論ステップにより、マルチモーダルな思考チェーンを生成します。
VTOOL-R1は、Pythonベースの視覚編集ツールをRFTプロセスに統合し、VLMが最終的な推論に役立つ視覚的推論ステップをいつどのように生成するかを学習できるようにします。
タスクの精度に関連する結果ベースの報酬でトレーニングされたこのアプローチは、プロセスベースの監督に依存することなく、推論のための戦略的な視覚ツールの使用を引き出します。
チャートや表に沿った構造化された視覚的質問の実験は、VTOOL-R1がVLMに「画像で考える」ように指導し、ツールでマルチモーダルの思考チェーンを生成することにより、推論パフォーマンスを向上させることを示しています。

要約(オリジナル)

Reinforcement Learning Finetuning (RFT) has significantly advanced the reasoning capabilities of large language models (LLMs) by enabling long chains of thought, self-correction, and effective tool use. While recent works attempt to extend RFT to vision-language models (VLMs), these efforts largely produce text-only reasoning conditioned on static image inputs, falling short of true multimodal reasoning in the response. In contrast, test-time methods like Visual Sketchpad incorporate visual steps but lack training mechanisms. We introduce VTool-R1, the first framework that trains VLMs to generate multimodal chains of thought by interleaving text and intermediate visual reasoning steps. VTool-R1 integrates Python-based visual editing tools into the RFT process, enabling VLMs to learn when and how to generate visual reasoning steps that benefit final reasoning. Trained with outcome-based rewards tied to task accuracy, our approach elicits strategic visual tool use for reasoning without relying on process-based supervision. Experiments on structured visual question answering over charts and tables show that VTool-R1 enhances reasoning performance by teaching VLMs to ‘think with images’ and generate multimodal chain of thoughts with tools.

arxiv情報

著者	Mingyuan Wu,Jingcheng Yang,Jize Jiang,Meitang Li,Kaizhuo Yan,Hanchao Yu,Minjia Zhang,Chengxiang Zhai,Klara Nahrstedt
発行日	2025-05-28 16:58:13+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー