Spatial Entropy Regularization for Vision Transformers

要約

最近の研究では、Vision Transformer (VT)のアテンションマップを自己教師付きで学習させると、教師付き学習では自然に出現しない意味的なセグメンテーション構造を含むことができることが示されている。本論文では、この空間的なクラスタリングの出現を学習の正則化の一形態として明示的に促し、標準的な教師あり学習に自己教師ありの前段階課題を組み込む。より詳細には、情報エントロピーの空間的定式化に基づくVT正則化手法を提案する。提案する空間エントロピーを最小化することにより、我々はVTに空間的に並んだ注意マップを生成するよう明示的に要求し、これにより学習中にオブジェクトベースの事前分布を含む。広範な実験により、提案する正則化アプローチは、異なる訓練シナリオ、データセット、下流タスク、およびVTアーキテクチャにおいて有益であることを示す。論文は受理され次第、公開される予定である。

要約(オリジナル)

Recent work has shown that the attention maps of Vision Transformers (VTs), when trained with self-supervision, can contain a semantic segmentation structure which does not spontaneously emerge when training is supervised. In this paper, we explicitly encourage the emergence of this spatial clustering as a form of training regularization, this way including a self-supervised pretext task into the standard supervised learning. In more detail, we propose a VT regularization method based on a spatial formulation of the information entropy. By minimizing the proposed spatial entropy, we explicitly ask the VT to produce spatially ordered attention maps, this way including an object-based prior during training. Using extensive experiments, we show that the proposed regularization approach is beneficial with different training scenarios, datasets, downstream tasks and VT architectures. The code will be available upon acceptance.

arxiv情報

著者 Elia Peruzzo,Enver Sangineto,Yahui Liu,Marco De Nadai,Wei Bi,Bruno Lepri,Nicu Sebe
発行日 2022-06-09 17:34:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク