CA-Stream: Attention-based pooling for interpretable image recognition

要約

トランスフォーマーベースのアーキテクチャから生の注意の形で得られる説明は、クラスに依存しない顕著性マップとして見ることができます。
さらに、アテンションベースのプーリングは、特徴空間内のマスクの形式として機能します。
この観察に基づいて、推論時に Global Average Pooling (GAP) を置き換えることを目的としたアテンションベースのプーリング メカニズムを設計します。
クロス アテンション ストリーム (CA-Stream) と呼ばれるこのメカニズムは、さまざまなネットワーク深度の機能と対話するクロス アテンション ブロックのストリームで構成されます。
CA-Stream は、認識パフォーマンスを維持しながら、モデルの解釈可能性を強化します。

要約(オリジナル)

Explanations obtained from transformer-based architectures in the form of raw attention, can be seen as a class-agnostic saliency map. Additionally, attention-based pooling serves as a form of masking the in feature space. Motivated by this observation, we design an attention-based pooling mechanism intended to replace Global Average Pooling (GAP) at inference. This mechanism, called Cross-Attention Stream (CA-Stream), comprises a stream of cross attention blocks interacting with features at different network depths. CA-Stream enhances interpretability in models, while preserving recognition performance.

arxiv情報

著者 Felipe Torres,Hanwei Zhang,Ronan Sicre,Stéphane Ayache,Yannis Avrithis
発行日 2024-04-23 12:57:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク