MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering

要約

視覚的な質問応答(VQA)には視覚的およびテキストのモダリティ全体の推論が必要ですが、大きなビジョン言語モデル(LVLM)が統合された常識的な知識を欠いていることが多く、現実世界のシナリオでの堅牢性を制限します。
これに対処するために、Commonsenseの知識をLVLMSと体系的に統合することにより、VQAを強化する新しいフレームワークであるMagic-VQAを紹介します。
Magic-VQAは、3段階のプロセスを採用しています。(1)外部ソースからの明示的な知識統合、(2)コンテキストの洗練のためのバイタイプのポストプロセッシング、および(3)構造化された推論のためのグラフニューラルネットワーク(GNN)を使用した暗黙の知識増強。
GNNSは構造化された推論により深みを帯びますが、LVLMを超えて優れたリレーショナル推論を可能にします。
Magic-VQAは、LVLM駆動型の推論でCommonsensseの知識を統合することにより、重要なギャップを橋渡しし、広範なトレーニングまたは複雑な迅速なチューニングの必要性を排除します。
私たちのフレームワークは、ベンチマークデータセットで最先端のパフォーマンスを実現し、VQAの常識的な推論を大幅に改善します。

要約(オリジナル)

Visual Question Answering (VQA) requires reasoning across visual and textual modalities, yet Large Vision-Language Models (LVLMs) often lack integrated commonsense knowledge, limiting their robustness in real-world scenarios. To address this, we introduce MAGIC-VQA, a novel framework that enhances VQA by systematically integrating commonsense knowledge with LVLMs. MAGIC-VQA employs a three-stage process: (1) Explicit Knowledge Integration from external sources, (2) By-Type Post-Processing for contextual refinement, and (3) Implicit Knowledge Augmentation using a Graph Neural Network (GNN) for structured reasoning. While GNNs bring greater depth to structured inference, they enable superior relational inference beyond LVLMs. MAGIC-VQA bridges a key gap by unifying commonsensse knowledge with LVLM-driven reasoning, eliminating the need for extensive pre-training or complex prompt tuning. Our framework achieves state-of-the-art performance on benchmark datasets, significantly improving commonsense reasoning in VQA.

arxiv情報

著者 Shuo Yang,Siwen Luo,Soyeon Caren Han,Eduard Hovy
発行日 2025-03-24 09:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク