要約
ビジュアル質問応答 (VQA) では、システムが非構造化 (例: 質問と回答のコンテキスト、「QA コンテキスト」) と構造化 (例: QA コンテキストとシーンのナレッジ グラフ、「コンセプト グラフ」) を統合することによって概念レベルの推論を実行する必要があります。
) 多角的な知識。
既存の作品は通常、対応するビジュアル ノードとコンセプト ノードを接続することによってシーンのシーン グラフとコンセプト グラフを組み合わせ、QA コンテキスト表現を組み込んで質問応答を実行します。
ただし、これらの方法は、非構造化知識から構造化知識への一方向の融合のみを実行するため、異種の知識様式に対する共同推論を捕捉する可能性が制限されます。
より表現力豊かな推論を実行するために、非構造化マルチモーダル知識と構造化マルチモーダル知識の間の双方向融合を実行して統一された知識表現を取得する新しい VQA モデルである VQA-GNN を提案します。
具体的には、QA コンテキストを表すスーパー ノードを介してシーン グラフとコンセプト グラフを相互接続し、モダリティ間の表現ギャップを軽減する推論のためのモーダル間メッセージ パッシングを実行する新しいマルチモーダル GNN 手法を導入します。
2 つの困難な VQA タスク (VCR および GQA) において、私たちの手法は、強力なベースライン VQA 手法よりも VCR (Q-AR) で 3.2%、GQA で 4.6% 優れており、概念レベルの推論の実行におけるこの手法の強みを示唆しています。
アブレーション研究では、非構造化および構造化されたマルチモーダル知識を統合する際の、双方向融合およびマルチモーダル GNN 法の有効性がさらに実証されています。
要約(オリジナル)
Visual question answering (VQA) requires systems to perform concept-level reasoning by unifying unstructured (e.g., the context in question and answer; ‘QA context’) and structured (e.g., knowledge graph for the QA context and scene; ‘concept graph’) multimodal knowledge. Existing works typically combine a scene graph and a concept graph of the scene by connecting corresponding visual nodes and concept nodes, then incorporate the QA context representation to perform question answering. However, these methods only perform a unidirectional fusion from unstructured knowledge to structured knowledge, limiting their potential to capture joint reasoning over the heterogeneous modalities of knowledge. To perform more expressive reasoning, we propose VQA-GNN, a new VQA model that performs bidirectional fusion between unstructured and structured multimodal knowledge to obtain unified knowledge representations. Specifically, we inter-connect the scene graph and the concept graph through a super node that represents the QA context, and introduce a new multimodal GNN technique to perform inter-modal message passing for reasoning that mitigates representational gaps between modalities. On two challenging VQA tasks (VCR and GQA), our method outperforms strong baseline VQA methods by 3.2% on VCR (Q-AR) and 4.6% on GQA, suggesting its strength in performing concept-level reasoning. Ablation studies further demonstrate the efficacy of the bidirectional fusion and multimodal GNN method in unifying unstructured and structured multimodal knowledge.
arxiv情報
著者 | Yanan Wang,Michihiro Yasunaga,Hongyu Ren,Shinya Wada,Jure Leskovec |
発行日 | 2023-09-15 08:16:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google