VGR: Visual Grounded Reasoning

要約

マルチモーダルの考え方(COT)の推論の分野では、既存のアプローチは主に言語バイアスに苦しみ、数学または科学のドメインに主に限定されている純粋な言語空間の推論に依存しています。
この狭い焦点は、画像の詳細の包括的な理解を必要とする複雑な視覚的推論タスクを処理する能力を制限します。
これらの制限に対処するために、このペーパーでは、微調整された視覚認識能力を強化した斬新なマルチモーダル大手言語モデル(MLLM)であるVGRを紹介します。
言語空間だけに質問や推論に答える従来のMLLMとは異なり、VGRは最初に問題を解決するのに役立つ関連領域を検出し、再生された画像領域に基づいて正確な回答を提供します。
これを達成するために、視力の接地と言語控除を混合した推論データを含むVgr -SFTと呼ばれる大規模なSFTデータセットを実施します。
VGRの推論パイプラインにより、モデルは視覚的な参照用の境界ボックスを選択でき、リプレイ段階が導入され、対応する領域を推論プロセスに統合してマルチモデルの理解を高めます。
LLAVA-Next-7Bベースラインの実験は、VGRがマルチモーダルベンチマークで優れたパフォーマンスを達成し、包括的な画像の詳細理解を必要とすることを示しています。
ベースラインと比較して、VGRは画像トークンカウントの30 \%のみを使用しながら、MMSTARで+4.1、AI2Dで+7.1、Chartqaで+12.9の改善を提供します。

要約(オリジナル)

In the field of multimodal chain-of-thought (CoT) reasoning, existing approaches predominantly rely on reasoning on pure language space, which inherently suffers from language bias and is largely confined to math or science domains. This narrow focus limits their ability to handle complex visual reasoning tasks that demand comprehensive understanding of image details. To address these limitations, this paper introduces VGR, a novel reasoning multimodal large language model (MLLM) with enhanced fine-grained visual perception capabilities. Unlike traditional MLLMs that answer the question or reasoning solely on the language space, our VGR first detects relevant regions that may help to solve problems, and then provides precise answers based on replayed image regions. To achieve this, we conduct a large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed vision grounding and language deduction. The inference pipeline of VGR allows the model to choose bounding boxes for visual reference and a replay stage is introduced to integrates the corresponding regions into the reasoning process, enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline show that VGR achieves superior performance on multi-modal benchmarks requiring comprehensive image detail understanding. Compared to the baseline, VGR uses only 30\% of the image token count while delivering scores of +4.1 on MMStar, +7.1 on AI2D, and a +12.9 improvement on ChartQA.

arxiv情報

著者 Jiacong Wang,Zijian Kang,Haochen Wang,Haiyong Jiang,Jiawen Li,Bohong Wu,Ya Wang,Jiao Ran,Xiao Liang,Chao Feng,Jun Xiao
発行日 2025-06-16 07:35:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク