BR-NPA: A Non-Parametric High-Resolution Attention Model to improve the Interpretability of Attention

要約

注意メカニズムの採用の普及により、注意分布の解釈可能性に関する懸念が生じています。
モデルがどのように機能しているかについての洞察を提供しますが、モデル予測の説明として注意を利用することは、依然として非常に疑わしいです。
コミュニティは、最終決定に最も貢献するローカル アクティブ リージョンをより適切に特定するための、より解釈可能な戦略を引き続き求めています。
既存の注意モデルの解釈可能性を向上させるために、タスク関連の人間が解釈可能な情報をキャプチャする新しいバイリニア代表ノンパラメトリック 注意 (BR-NPA) 戦略を提案します。
ターゲット モデルは、高解像度の中間特徴マップを持つように最初に抽出されます。
そこから、ローカルのペアワイズ特徴の類似性に基づいて代表的な特徴がグループ化され、入力のタスク関連部分を強調する、よりきめ細かく、より正確なアテンション マップが生成されます。
得られたアテンション マップは、強調表示された領域の重要なレベルに関する情報を提供する複合機能のアクティビティ レベルに従ってランク付けされます。
提案されたモデルは、分類が関係するさまざまな最新のディープ モデルに簡単に適用できます。
広範な定量的および定性的な実験により、最先端のアテンション モデルおよび視覚化方法と比較して、より包括的で正確な視覚的説明が示されます。
分類精度。
提案された視覚化モデルは、ニューラル ネットワークがさまざまなタスクでどのように「注意を払う」かを明確に示しています。

要約(オリジナル)

The prevalence of employing attention mechanisms has brought along concerns on the interpretability of attention distributions. Although it provides insights about how a model is operating, utilizing attention as the explanation of model predictions is still highly dubious. The community is still seeking more interpretable strategies for better identifying local active regions that contribute the most to the final decision. To improve the interpretability of existing attention models, we propose a novel Bilinear Representative Non-Parametric Attention (BR-NPA) strategy that captures the task-relevant human-interpretable information. The target model is first distilled to have higher-resolution intermediate feature maps. From which, representative features are then grouped based on local pairwise feature similarity, to produce finer-grained, more precise attention maps highlighting task-relevant parts of the input. The obtained attention maps are ranked according to the activity level of the compound feature, which provides information regarding the important level of the highlighted regions. The proposed model can be easily adapted in a wide variety of modern deep models, where classification is involved. Extensive quantitative and qualitative experiments showcase more comprehensive and accurate visual explanations compared to state-of-the-art attention models and visualizations methods across multiple tasks including fine-grained image classification, few-shot classification, and person re-identification, without compromising the classification accuracy. The proposed visualization model sheds imperative light on how neural networks `pay their attention’ differently in different tasks.

arxiv情報

著者 Tristan Gomez,Suiyi Ling,Thomas Fréour,Harold Mouchère
発行日 2022-09-15 09:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク