Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis

要約

最近の進歩により、マルチイメージ情報を理解するためのマルチモーダル大手言語モデル(MLLM)の能力が向上しました。
ただし、既存のベンチマークは主に回答の正確さを評価し、モデルが視覚入力を本当に理解しているかどうかを見落としています。
これに対処するために、MLLMが視覚入力を完全に理解することなく正しい答えを提供する暗黙の視覚誤解(IVM)を定義します。
分析を通じて、原因注意モジュール内の視覚的およびテキストモダリティを分離し、ネットワークレイヤーが深くなるにつれて、注意分布が正解に関連する画像にますます収束することを明らかにします。
この洞察は、スケールに依存しないメトリック、\ textIT {注意精度}、およびIVMを定量化するための新しいベンチマークの導入につながります。
注意精度は、内部メカニズムを介してモデルの視覚的理解を直接評価し、より信頼性の高い評価のために位置バイアスに対して堅牢であり続けます。
さらに、より細かい粒度へのアプローチを拡張し、その汎用性と一般化可能性を強調して、単型シナリオでその有効性を実証します。

要約(オリジナル)

Recent advancements have enhanced the capability of Multimodal Large Language Models (MLLMs) to comprehend multi-image information. However, existing benchmarks primarily evaluate answer correctness, overlooking whether models genuinely comprehend the visual input. To address this, we define implicit visual misunderstanding (IVM), where MLLMs provide correct answers without fully comprehending the visual input. Through our analysis, we decouple the visual and textual modalities within the causal attention module, revealing that attention distribution increasingly converges on the image associated with the correct answer as the network layers deepen. This insight leads to the introduction of a scale-agnostic metric, \textit{attention accuracy}, and a novel benchmark for quantifying IVMs. Attention accuracy directly evaluates the model’s visual understanding via internal mechanisms, remaining robust to positional biases for more reliable assessments. Furthermore, we extend our approach to finer granularities and demonstrate its effectiveness in unimodal scenarios, underscoring its versatility and generalizability.

arxiv情報

著者 Pengfei Wang,Guohai Xu,Weinong Wang,Junjie Yang,Jie Lou,Yunhua Xue
発行日 2025-05-15 17:52:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク