Visual Abstract Thinking Empowers Multimodal Reasoning

要約

通常、画像はテキストよりも豊かな詳細を伝えますが、多くの場合、マルチモーダルの推論パフォーマンスを格下げする可能性のある冗長な情報が含まれます。
長いまたは複雑なメッセージに直面すると、人間は抽象的思考を採用して、それらを単純で簡潔な抽象に変換する傾向があります。
この認知戦略に触発されて、視覚的抽象思考(VAT)を紹介します。これは、明示的な言葉の思考や精巧なガイダンスの代わりに、視覚的抽象的なマルチモーダル大手言語モデル(MLLM)を促す斬新なパラダイムであり、より集中した視覚的推論メカニズムを許可します。
チェーンオブ考え(COT)やツールの高度のアプローチなどの明示的な思考は、冗長中間ステップ、外部知識、または視覚情報を挿入することにより、推論プロセスの複雑さを高めます。
対照的に、VATは冗長な視覚情報を減らし、モデルがより重要な視覚要素に推論を集中させることを奨励します。
実験結果は、VATがさまざまなモデルに一貫して力を与え、さまざまなタイプの視覚的要約を採用することによりGPT-4Oベースラインよりも17%の平均ゲインを達成することを示しており、VATが概念、構造、およびリレーショナルの推論タスクに関するMLLMの視覚的推論能力を高めることができることを示しています。
VATは、知識集約的なマルチモーダル推論タスクのCOTとも互換性があります。
これらの発見は、抽象的な思考による視覚的推論の有効性を強調し、人間の認知の観点からより多様な推論パラダイムのさらなる調査を促進します。

要約(オリジナル)

Images usually convey richer detail than text, but often include redundant information which potentially downgrades multimodal reasoning performance. When faced with lengthy or complex messages, humans tend to employ abstract thinking to convert them into simple and concise abstracts. Inspired by this cognitive strategy, we introduce Visual Abstract Thinking (VAT), a novel thinking paradigm that prompts Multimodal Large Language Models (MLLMs) with visual abstract instead of explicit verbal thoughts or elaborate guidance, permitting a more concentrated visual reasoning mechanism. Explicit thinking, such as Chain-of-thought (CoT) or tool-augmented approaches, increases the complexity of reasoning process via inserting verbose intermediate steps, external knowledge or visual information. In contrast, VAT reduces redundant visual information and encourages models to focus their reasoning on more essential visual elements. Experimental results show that VAT consistently empowers different models, and achieves an average gain of 17% over GPT-4o baseline by employing diverse types of visual abstracts, demonstrating that VAT can enhance visual reasoning abilities for MLLMs regarding conceptual, structural and relational reasoning tasks. VAT is also compatible with CoT in knowledge-intensive multimodal reasoning tasks. These findings highlight the effectiveness of visual reasoning via abstract thinking and encourage further exploration of more diverse reasoning paradigms from the perspective of human cognition.

arxiv情報

著者 Dairu Liu,Ziyue Wang,Minyuan Ruan,Fuwen Luo,Chi Chen,Peng Li,Yang Liu
発行日 2025-05-26 16:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク