Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

要約

ビジョン言語モデル(VLM)は、視覚的な質問応答と画像キャプションで印象的です。
しかし、彼らは、テキスト形式で提示された同じタスクのLLMと比較しても、マルチステップの視覚的推論でパフォーマンスを低下させています。
このような問題の体系的な研究に向けて、Table Readout、グリッドナビゲーション、視覚的類推の3つのタスクで構成されるアルゴリズムの視覚的推論を実行するVLMの能力を評価するための合成フレームワークを紹介します。
それぞれに2つのレベルの難易度があり、シンプルでハードがあり、フロンティアVLMにとってもシンプルなバージョンでさえ困難です。
対応するハードタスク、つまりシンプルな(S2H)一般化のパフォーマンスを改善するタスクの単純なバージョンでトレーニングのための戦略を提案します。
この制御されたセットアップは、各タスクにも同等のテキストのみのバージョンがあるため、モダリティの不均衡とトレーニング戦略の影響を定量化することができます。
1)テキストから推論を転送することにより、画像上のS2H一般化を促進する上で明示的な画像からテキストへの変換が重要であることを示します。
2)コンバージョンは、テスト時に内部化できます。
また、この現象の機械的研究の結果を報告します。
より良いS2H一般化を促進するトレーニング戦略を特定できる勾配アライメントの尺度を特定します。
アブレーションは、考え方のチェーンの重要性を強調しています。

要約(オリジナル)

Vision Language Models (VLMs) are impressive at visual question answering and image captioning. But they underperform on multi-step visual reasoning — even compared to LLMs on the same tasks presented in text form — giving rise to perceptions of modality imbalance or brittleness. Towards a systematic study of such issues, we introduce a synthetic framework for assessing the ability of VLMs to perform algorithmic visual reasoning, comprising three tasks: Table Readout, Grid Navigation, and Visual Analogy. Each has two levels of difficulty, SIMPLE and HARD, and even the SIMPLE versions are difficult for frontier VLMs. We propose strategies for training on the SIMPLE version of tasks that improve performance on the corresponding HARD task, i.e., simple-to-hard (S2H) generalization. This controlled setup, where each task also has an equivalent text-only version, allows a quantification of the modality imbalance and how it is impacted by training strategy. We show that 1) explicit image-to-text conversion is important in promoting S2H generalization on images, by transferring reasoning from text; 2) conversion can be internalized at test time. We also report results of mechanistic study of this phenomenon. We identify measures of gradient alignment that can identify training strategies that promote better S2H generalization. Ablations highlight the importance of chain-of-thought.

arxiv情報

著者 Simon Park,Abhishek Panigrahi,Yun Cheng,Dingli Yu,Anirudh Goyal,Sanjeev Arora
発行日 2025-06-02 16:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク