要約
幻覚やモデルの失敗など、生成 AI にはさまざまな制限があるため、視覚言語モデル (VLM) 予測におけるさまざまなモダリティの役割を理解することが重要になっています。
私たちの研究では、画像とテキストのモダリティからの情報の統合が、ビジュアル質問応答 (VQA) および推論タスクにおける VLM のパフォーマンスと動作にどのような影響を与えるかを調査しています。
この効果は、回答の精度、推論の質、モデルの不確実性、モダリティの関連性を通じて測定されます。
私たちは、VQA タスクを解決するために視覚的なコンテンツが不可欠であるさまざまな構成におけるテキストと画像のモダリティ間の相互作用を研究します。
私たちの貢献には、(1) セマンティック インターベンション (SI)-VQA データセット、(2) 異なるモダリティ構成におけるさまざまな VLM アーキテクチャのベンチマーク調査、および (3) インタラクティブ セマンティック インターベンション (ISI) ツールが含まれます。
SI-VQA データセットはベンチマークの基盤として機能し、ISI ツールは画像およびテキスト入力のセマンティック介入をテストおよび適用するためのインターフェイスを提供し、より詳細な分析を可能にします。
私たちの結果は、モダリティ間の補完的な情報は回答と推論の質を向上させる一方、矛盾する情報はモデルのパフォーマンスと信頼性を損なうことを示しています。
画像テキストの注釈は精度と不確実性に最小限の影響を与え、画像の関連性をわずかに高めます。
注意分析により、VQA タスクではテキストよりも画像入力の支配的な役割が確認されます。
この研究では、各モダリティの注意係数を抽出できる最先端の VLM を評価します。
重要な発見は、PaliGemma の有害な過信であり、LLaVA モデルと比較してサイレント障害のリスクが高くなります。
この研究は、モダリティ統合の厳密な分析の基礎を築き、この目的のために特別に設計されたデータセットによってサポートされます。
要約(オリジナル)
The various limitations of Generative AI, such as hallucinations and model failures, have made it crucial to understand the role of different modalities in Visual Language Model (VLM) predictions. Our work investigates how the integration of information from image and text modalities influences the performance and behavior of VLMs in visual question answering (VQA) and reasoning tasks. We measure this effect through answer accuracy, reasoning quality, model uncertainty, and modality relevance. We study the interplay between text and image modalities in different configurations where visual content is essential for solving the VQA task. Our contributions include (1) the Semantic Interventions (SI)-VQA dataset, (2) a benchmark study of various VLM architectures under different modality configurations, and (3) the Interactive Semantic Interventions (ISI) tool. The SI-VQA dataset serves as the foundation for the benchmark, while the ISI tool provides an interface to test and apply semantic interventions in image and text inputs, enabling more fine-grained analysis. Our results show that complementary information between modalities improves answer and reasoning quality, while contradictory information harms model performance and confidence. Image text annotations have minimal impact on accuracy and uncertainty, slightly increasing image relevance. Attention analysis confirms the dominant role of image inputs over text in VQA tasks. In this study, we evaluate state-of-the-art VLMs that allow us to extract attention coefficients for each modality. A key finding is PaliGemma’s harmful overconfidence, which poses a higher risk of silent failures compared to the LLaVA models. This work sets the foundation for rigorous analysis of modality integration, supported by datasets specifically designed for this purpose.
arxiv情報
著者 | Kenza Amara,Lukas Klein,Carsten Lüth,Paul Jäger,Hendrik Strobelt,Mennatallah El-Assady |
発行日 | 2024-10-02 16:02:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google