要約
人工知能の基本的な課題は、ビジョン言語モデル(VLM)などの洗練されたモデルの視覚的推論の根底にある認知メカニズムを理解することです。
これらのモデルは、特に複数の画像を推論したり、きめ細かい構成的理解を必要としたりする場合、視覚的知覚と抽象的な思考をどのように統合しますか?
認知科学からインスピレーションを得て、このペーパーでは、多様な視覚的推論タスクボンガードの問題(BPS)とウィノグラウンドを使用して、VLMSの知覚合理的なインターフェイスを分析するための構造化された評価フレームワークを紹介します。
3つの異なる評価パラダイムを提案し、人間の問題解決戦略を反映しています:直接的な視覚ルール学習(DVRL;総合処理)、演ductive的なルール学習(DRL;ルール抽出とアプリケーション)、およびコンポーネンシャル分析(CA;タスク存在テキストの記述による分析的分解)。
これらのパラダイムは、認知負荷とプローブ処理段階を体系的に変化させます。
特に、CAは、単一イメージのアーキテクチャや、テキストの説明を操作することにより、知覚から推論を分離している場合でも、マルチイメージの推論評価を可能にします。
このフレームワークを適用して、CAは、豊かで独立して生成された説明を推論するための強力な言語モデルを活用し、Bongard-Openworld、Bongard-Hoi、Winogroundなどの挑戦的なベンチマークで新しい最先端の(SOTA)パフォーマンスを達成することを実証します。
アブレーション研究は、知覚的な課題が軽減されると、推論が大幅に改善されることを確認し、重要な知覚ボトルネックを明らかにします。
私たちのフレームワークは貴重な診断ツールを提供し、推論からの(豊富なタスクと存在する説明を介して)分離の認識が堅牢で一般的な視覚知能の有望な方向であることを示唆しています。
要約(オリジナル)
A fundamental challenge in artificial intelligence involves understanding the cognitive mechanisms underlying visual reasoning in sophisticated models like Vision-Language Models (VLMs). How do these models integrate visual perception with abstract thought, especially when reasoning across multiple images or requiring fine-grained compositional understanding? Drawing inspiration from cognitive science, this paper introduces a structured evaluation framework using diverse visual reasoning tasks-Bongard Problems (BPs) and Winoground-to dissect the perception-reasoning interface in VLMs. We propose three distinct evaluation paradigms, mirroring human problem-solving strategies: Direct Visual Rule Learning (DVRL; holistic processing), Deductive Rule Learning (DRL; rule extraction and application), and Componential Analysis (CA; analytical decomposition via task-agnostic textual descriptions). These paradigms systematically vary cognitive load and probe processing stages. Notably, CA enables multi-image reasoning evaluation even for single-image architectures and isolates reasoning from perception by operating on textual descriptions. Applying this framework, we demonstrate that CA, leveraging powerful language models for reasoning over rich, independently generated descriptions, achieves new state-of-the-art (SOTA) performance on challenging benchmarks including Bongard-OpenWorld, Bongard-HOI, and Winoground. Ablation studies confirm reasoning improves significantly when perceptual challenges are mitigated, revealing a critical perception bottleneck. Our framework provides a valuable diagnostic tool and suggests that decoupling perception (via rich, task-agnostic description) from reasoning is a promising direction for robust and general visual intelligence.
arxiv情報
著者 | Mohit Vaishnav,Tanel Tammet |
発行日 | 2025-05-06 13:59:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google