要約
表やチャートの解釈など、構造化された画像を理解するには、画像内のさまざまな構造やテキストに戦略的に焦点を当て、最終的な答えに到達するための推論シーケンスを形成する必要があります。
ただし、現在のマルチモーダル大規模言語モデル (LLM) には、このマルチホップの選択的注意機能がありません。
この研究では、マルチモーダル LLM に、コードを通じて入力画像に対して視覚的な編集を実行し、視覚的な焦点を移動および調整することで「視覚的な思考」を生成する機能を備えた、シンプルかつ効果的なフレームワークである ReFocus を紹介します。
具体的には、ReFocus を使用すると、マルチモーダル LLM が Python コードを生成してツールを呼び出し、入力画像を変更し、ボックスの描画、セクションの強調表示、領域のマスクアウトを順次実行できるようになり、視覚的推論プロセスが強化されます。
私たちは、表やチャートを含む、構造化された画像を理解するタスクを幅広く実験します。
ReFocus は、視覚的な編集を行わない GPT-4o よりもすべてのタスクのパフォーマンスを大幅に向上させ、テーブル タスクで平均 11.0%、チャート タスクで 6.8% の向上をもたらしました。
さまざまなビジュアル編集の効果を詳細に分析し、追加情報を導入することなく ReFocus がパフォーマンスを向上できる理由を示します。
さらに、ReFocus を使用して 14,000 のトレーニング セットを収集し、中間情報を含むこのような視覚的な思考連鎖が標準的な VQA データよりも優れた監視を提供し、QA ペアでトレーニングされた同じモデルと比較して平均 8.0%、平均 2.6% の向上に達することを証明しました。
CoT以上。
要約(オリジナル)
Structured image understanding, such as interpreting tables and charts, requires strategically refocusing across various structures and texts within an image, forming a reasoning sequence to arrive at the final answer. However, current multimodal large language models (LLMs) lack this multihop selective attention capability. In this work, we introduce ReFocus, a simple yet effective framework that equips multimodal LLMs with the ability to generate ‘visual thoughts’ by performing visual editing on the input image through code, shifting and refining their visual focuses. Specifically, ReFocus enables multimodal LLMs to generate Python codes to call tools and modify the input image, sequentially drawing boxes, highlighting sections, and masking out areas, thereby enhancing the visual reasoning process. We experiment upon a wide range of structured image understanding tasks involving tables and charts. ReFocus largely improves performance on all tasks over GPT-4o without visual editing, yielding an average gain of 11.0% on table tasks and 6.8% on chart tasks. We present an in-depth analysis of the effects of different visual edits, and reasons why ReFocus can improve the performance without introducing additional information. Further, we collect a 14k training set using ReFocus, and prove that such visual chain-of-thought with intermediate information offers a better supervision than standard VQA data, reaching a 8.0% average gain over the same model trained with QA pairs and 2.6% over CoT.
arxiv情報
著者 | Xingyu Fu,Minqian Liu,Zhengyuan Yang,John Corring,Yijuan Lu,Jianwei Yang,Dan Roth,Dinei Florencio,Cha Zhang |
発行日 | 2025-01-09 18:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google