要約
ビジュアル質問応答 (VQA) は、答えを正しく推測するために視覚と言語を橋渡しする努力が必要なマルチモーダルなタスクとして集中的に研究されてきました。
最近の試みでは、VQA タスクを解決するためのさまざまな注意ベースのモジュールが開発されました。
ただし、モデル推論のパフォーマンスは、セマンティクスを理解するための視覚処理によって主にボトルネックになっています。
既存の検出方法のほとんどはバウンディング ボックスに依存しており、VQA モデルにとって画像内のオブジェクト セマンティクスの因果関係を理解し、コンテキスト情報を正しく推測することは依然として深刻な課題です。
この目的を達成するために、この重要な問題に取り組むために、この作業では境界ボックスのない、Looking Out of Instance Semantics (LOIS) と呼ばれる、より詳細なモデル フレームワークを提案します。
LOIS を使用すると、より詳細な特徴の説明が可能になり、視覚的な事実を生み出すことができます。
さらに、インスタンス マスクによって引き起こされるラベルの曖昧さを克服するために、2 種類の関係注意モジュール (1) モダリティ内と 2) モダリティ間が考案され、さまざまなマルチビューの特徴から正解を推測します。
具体的には、インスタンスオブジェクトと背景情報の間の高度でより深い視覚的意味関係をモデル化する相互関係注意モジュールを実装します。
さらに、私たちが提案した注意モデルは、重要な単語に関連する質問に焦点を当てることで、顕著な画像領域をさらに分析できます。
4 つのベンチマーク VQA データセットでの実験結果は、提案した手法が視覚的推論能力の向上において良好なパフォーマンスを発揮することを証明しています。
要約(オリジナル)
Visual question answering (VQA) has been intensively studied as a multimodal task that requires effort in bridging vision and language to infer answers correctly. Recent attempts have developed various attention-based modules for solving VQA tasks. However, the performance of model inference is largely bottlenecked by visual processing for semantics understanding. Most existing detection methods rely on bounding boxes, remaining a serious challenge for VQA models to understand the causal nexus of object semantics in images and correctly infer contextual information. To this end, we propose a finer model framework without bounding boxes in this work, termed Looking Out of Instance Semantics (LOIS) to tackle this important issue. LOIS enables more fine-grained feature descriptions to produce visual facts. Furthermore, to overcome the label ambiguity caused by instance masks, two types of relation attention modules: 1) intra-modality and 2) inter-modality, are devised to infer the correct answers from the different multi-view features. Specifically, we implement a mutual relation attention module to model sophisticated and deeper visual semantic relations between instance objects and background information. In addition, our proposed attention model can further analyze salient image regions by focusing on important word-related questions. Experimental results on four benchmark VQA datasets prove that our proposed method has favorable performance in improving visual reasoning capability.
arxiv情報
著者 | Siyu Zhang,Yeming Chen,Yaoru Sun,Fang Wang,Haibo Shi,Haoran Wang |
発行日 | 2023-07-26 12:13:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google