要約
トランスフォーマーベースのアーキテクチャから生の注意の形で得られる説明は、クラスに依存しない顕著性マップとして見ることができます。
さらに、アテンションベースのプーリングは、特徴空間内のマスクの形式として機能します。
この観察に基づいて、推論時に Global Average Pooling (GAP) を置き換えることを目的としたアテンションベースのプーリング メカニズムを設計します。
クロス アテンション ストリーム (CA-Stream) と呼ばれるこのメカニズムは、さまざまなネットワーク深度の機能と対話するクロス アテンション ブロックのストリームで構成されます。
CA-Stream は、認識パフォーマンスを維持しながら、モデルの解釈可能性を強化します。
要約(オリジナル)
Explanations obtained from transformer-based architectures in the form of raw attention, can be seen as a class-agnostic saliency map. Additionally, attention-based pooling serves as a form of masking the in feature space. Motivated by this observation, we design an attention-based pooling mechanism intended to replace Global Average Pooling (GAP) at inference. This mechanism, called Cross-Attention Stream (CA-Stream), comprises a stream of cross attention blocks interacting with features at different network depths. CA-Stream enhances interpretability in models, while preserving recognition performance.
arxiv情報
著者 | Felipe Torres,Hanwei Zhang,Ronan Sicre,Stéphane Ayache,Yannis Avrithis |
発行日 | 2024-04-23 12:57:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google