Optimizing Relevance Maps of Vision Transformers Improves Robustness

要約

視覚的分類モデルは、多くの場合、画像の背景に依存し、前景を無視することが観察されています。これにより、分布の変化に対する堅牢性が損なわれます。
この欠点を軽減するために、モデルの関連性信号を監視し、モデルが前景オブジェクトに焦点を合わせるように操作することを提案します。
これは微調整ステップとして行われ、画像のペアとそれに関連する前景マスクで構成される比較的少数のサンプルが含まれます。
具体的には、モデルの関連性マップで、(i)背景領域に低い関連性を割り当てること、(ii)フォアグラウンドから可能な限り多くの情報を検討すること、(iii)信頼性の高い決定を行うことをお勧めします。
Vision Transformer(ViT)モデルに適用すると、ドメインシフトに対する堅牢性の大幅な向上が見られます。
さらに、前景マスクは、ViTモデル自体の自己監視型バリアントから自動的に取得できます。
したがって、追加の監督は必要ありません。

要約(オリジナル)

It has been observed that visual classification models often rely mostly on the image background, neglecting the foreground, which hurts their robustness to distribution changes. To alleviate this shortcoming, we propose to monitor the model’s relevancy signal and manipulate it such that the model is focused on the foreground object. This is done as a finetuning step, involving relatively few samples consisting of pairs of images and their associated foreground masks. Specifically, we encourage the model’s relevancy map (i) to assign lower relevance to background regions, (ii) to consider as much information as possible from the foreground, and (iii) we encourage the decisions to have high confidence. When applied to Vision Transformer (ViT) models, a marked improvement in robustness to domain shifts is observed. Moreover, the foreground masks can be obtained automatically, from a self-supervised variant of the ViT model itself; therefore no additional supervision is required.

arxiv情報

著者 Hila Chefer,Idan Schwartz,Lior Wolf
発行日 2022-06-02 17:24:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク