A Simple Interpretable Transformer for Fine-Grained Image Classification and Analysis

要約

我々は、画像分類を解釈可能にするためのトランスフォーマーの新しい使い方を提示する。予測を行うためにクラス情報を取り込むために最後の完全連結層まで待つ主流の分類器とは異なり、我々は、各クラスが画像中で自分自身を探索するよう求める、積極的なアプローチを研究する。DEtection TRansformer (DETR)にインスパイアされたTransformerエンコーダ・デコーダにより、このアイデアを実現する。デコーダへの入力として「クラス固有の」クエリ(各クラスに1つずつ)を学習し、各クラスがクロスアテンションによって画像中のパターンを特定できるようにする。我々のアプローチをINTR(INterpretable TRansformer)と名付ける。我々は、INTRが本質的に各クラスを区別して注意するよう促すことを示す;したがって、交差注意の重みは予測の忠実な解釈を提供する。興味深いことに、「マルチヘッド」クロスアテンションにより、INTRはクラスの異なる「属性」を識別することができ、特にきめ細かい分類や分析に適している。我々のコードと訓練済みモデルは、Imageomics InstituteのGitHubサイト(https://github.com/Imageomics/INTR)で公開されている。

要約(オリジナル)

We present a novel usage of Transformers to make image classification interpretable. Unlike mainstream classifiers that wait until the last fully connected layer to incorporate class information to make predictions, we investigate a proactive approach, asking each class to search for itself in an image. We realize this idea via a Transformer encoder-decoder inspired by DEtection TRansformer (DETR). We learn ‘class-specific’ queries (one for each class) as input to the decoder, enabling each class to localize its patterns in an image via cross-attention. We name our approach INterpretable TRansformer (INTR), which is fairly easy to implement and exhibits several compelling properties. We show that INTR intrinsically encourages each class to attend distinctively; the cross-attention weights thus provide a faithful interpretation of the prediction. Interestingly, via ‘multi-head’ cross-attention, INTR could identify different ‘attributes’ of a class, making it particularly suitable for fine-grained classification and analysis, which we demonstrate on eight datasets. Our code and pre-trained models are publicly accessible at the Imageomics Institute GitHub site: https://github.com/Imageomics/INTR.

arxiv情報

著者 Dipanjyoti Paul,Arpita Chowdhury,Xinqi Xiong,Feng-Ju Chang,David Carlyn,Samuel Stevens,Kaiya L. Provost,Anuj Karpatne,Bryan Carstens,Daniel Rubenstein,Charles Stewart,Tanya Berger-Wolf,Yu Su,Wei-Lun Chao
発行日 2024-05-03 15:33:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク