VQA with Cascade of Self- and Co-Attention Blocks

要約

複雑なアテンション モジュールを使用することで、Visual Question Answering (VQA) タスクのパフォーマンスが向上しました。
この作業は、視覚的モダリティとテキスト モダリティの密な相互作用を通じて、改善されたマルチモーダル表現を学習することを目的としています。
提案されたモデルには、画像とテキストに対する自己注意と共同注意の両方を含む注意ブロックがあります。
自己注意モジュールは、答えを推測するために重要なオブジェクト (画像の場合) と単語 (質問の場合) のコンテキスト情報を提供します。
一方、共注意は画像とテキストの相互作用を助けます。
さらに、Cascade of Self-and Co-Attention ブロック (CSCA) を使用して、2 つのモダリティから詳細な情報が取得されます。
この提案は、広く使用されている VQA2.0 および TDIUC データセットでベンチマークされています。
モデルの重要なコンポーネントの有効性と注意モジュールのカスケードは、アブレーション分析を含む実験によって実証されています。

要約(オリジナル)

The use of complex attention modules has improved the performance of the Visual Question Answering (VQA) task. This work aims to learn an improved multi-modal representation through dense interaction of visual and textual modalities. The proposed model has an attention block containing both self-attention and co-attention on image and text. The self-attention modules provide the contextual information of objects (for an image) and words (for a question) that are crucial for inferring an answer. On the other hand, co-attention aids the interaction of image and text. Further, fine-grained information is obtained from two modalities by using a Cascade of Self- and Co-Attention blocks (CSCA). This proposal is benchmarked on the widely used VQA2.0 and TDIUC datasets. The efficacy of key components of the model and cascading of attention modules are demonstrated by experiments involving ablation analysis.

arxiv情報

著者 Aakansha Mishra,Ashish Anand,Prithwijit Guha
発行日 2023-02-28 17:20:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク