Modularized Zero-shot VQA with Pre-trained Models

要約

大規模な事前トレーニング済みモデル (PTM) は、優れたゼロショット機能を示します。
このペーパーでは、ゼロショットのビジュアル質問応答 (VQA) にそれらを活用する方法を研究します。
私たちのアプローチは、いくつかの観察に基づいています。
まず、VQA の質問には複数の推論ステップが必要になることがよくありますが、これは依然としてほとんどの PTM に欠けている能力です。
第 2 に、VQA 推論チェーンのさまざまなステップには、オブジェクト検出や関係推論などのさまざまなスキルが必要ですが、1 つの PTM がこれらすべてのスキルを備えているわけではありません。
第三に、ゼロショット VQA に関する最近の研究では、複数ステップの推論チェーンが明示的に考慮されていないため、分解ベースのアプローチと比較して解釈が難しくなります。
私たちは、質問をサブ推論ステップに明示的に分解し、高度に解釈可能なモジュール化されたゼロショット ネットワークを提案します。
私たちはサブ推論タスクを PTM の許容可能な目標に変換し、適応させることなくタスクを適切な PTM に割り当てます。
ゼロショット設定での 2 つの VQA ベンチマークでの実験では、いくつかのベースラインと比較して、私たちの方法の有効性とより優れた解釈可能性を示しています。

要約(オリジナル)

Large-scale pre-trained models (PTMs) show great zero-shot capabilities. In this paper, we study how to leverage them for zero-shot visual question answering (VQA). Our approach is motivated by a few observations. First, VQA questions often require multiple steps of reasoning, which is still a capability that most PTMs lack. Second, different steps in VQA reasoning chains require different skills such as object detection and relational reasoning, but a single PTM may not possess all these skills. Third, recent work on zero-shot VQA does not explicitly consider multi-step reasoning chains, which makes them less interpretable compared with a decomposition-based approach. We propose a modularized zero-shot network that explicitly decomposes questions into sub reasoning steps and is highly interpretable. We convert sub reasoning tasks to acceptable objectives of PTMs and assign tasks to proper PTMs without any adaptation. Our experiments on two VQA benchmarks under the zero-shot setting demonstrate the effectiveness of our method and better interpretability compared with several baselines.

arxiv情報

著者 Rui Cao,Jing Jiang
発行日 2024-01-24 12:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク