OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

要約

人間は、複雑な問題解決のためのインタラクティブな視覚認知を柔軟に活用できますが、視覚ツールで同様に適応行動を学習できるようにする大規模な視覚モデル(LVLMS)が可能になります。
重要なハードルは、現在の標準化されたインフラストラクチャの欠如であり、多様なツールの統合、豊富な相互作用データの生成、および堅牢なエージェントを効果的にトレーニングすることを妨げます。
これらのギャップに対処するために、ツールを得たLVLMSの最初のオープンソースで包括的なエンドツーエンドフレームワークであるOpenthinkimgを紹介します。
標準化されたビジョンツールインターフェイス、ポリシーの初期化のためのスケーラブルな軌跡生成、および柔軟なトレーニング環境を備えています。
さらに、静的デモンストレーションで監視された微調整(SFT)が動的ツールの呼び出しのための限られたポリシー一般化を提供することを考慮すると、外部ビジョンツールを呼び出すための適応ポリシーを学習するためのLVLMSを訓練するための新しい強化学習(RL)フレームワークv-TOOLRLを提案します。
V-ToolRLにより、LVLMは、ツールインタラクションからのフィードバックを使用してタスクの成功を最適化することにより、最適なツール使用戦略を自律的に発見できます。
挑戦的なチャート推論タスクについて、V-ToolRLを経験的に検証します。
QWEN2-VL-2Bに基づいて構築されたRLトレーニングエージェントは、SFTが有名なカウンターパート(+28.83ポイント)を大幅に上回り、TacoやCogcomのような監視されたツール学習ベースラインを平均+12.7ポイント上回ります。
特に、GPT-4.1 x +8.68の精度ポイントなどの顕著なクローズドソースモデルを上回ります。
Openthinkimgが、ダイナミックでツールを熟成した視覚的推論を進めるための基礎的なフレームワークとして役立つことを願っています。

要約(オリジナル)

While humans can flexibly leverage interactive visual cognition for complex problem-solving, enabling Large Vision-Language Models (LVLMs) to learn similarly adaptive behaviors with visual tools remains challenging. A significant hurdle is the current lack of standardized infrastructure, which hinders integrating diverse tools, generating rich interaction data, and training robust agents effectively. To address these gaps, we introduce OpenThinkIMG, the first open-source, comprehensive end-to-end framework for tool-augmented LVLMs. It features standardized vision tool interfaces, scalable trajectory generation for policy initialization, and a flexible training environment. Furthermore, considering supervised fine-tuning (SFT) on static demonstrations offers limited policy generalization for dynamic tool invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL to train LVLMs to learn adaptive policies for invoking external vision tools. V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies by directly optimizing for task success using feedback from tool interactions. We empirically validate V-ToolRL on challenging chart reasoning tasks. Our RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its SFT-initialized counterpart (+28.83 points) and surpasses established supervised tool-learning baselines like Taco and CogCom by an average of +12.7 points. Notably, it also surpasses prominent closed-source models like GPT-4.1 by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational framework for advancing dynamic, tool-augmented visual reasoning, helping the community develop AI agents that can genuinely ‘think with images’.

arxiv情報

著者 Zhaochen Su,Linjie Li,Mingyang Song,Yunzhuo Hao,Zhengyuan Yang,Jun Zhang,Guanjie Chen,Jiawei Gu,Juntao Li,Xiaoye Qu,Yu Cheng
発行日 2025-05-13 14:35:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク