TokenMix: Rethinking Image Mixing for Data Augmentation in Vision Transformers

要約

CutMix は、最新の畳み込みおよびトランスフォーマー ビジョン ネットワークのトレーニングに一般的に使用される一般的な拡張手法です。
これは当初、畳み込みニューラル ネットワーク (CNN) がローカル情報ではなく画像のグローバル コンテキストにより重点を置くように設計されました。これにより、CNN のパフォーマンスが大幅に向上します。
ただし、自然にグローバルな受容野を持つ変圧器ベースのアーキテクチャでは、利点が限られていることがわかりました。
この論文では、ビジョントランスフォーマーのパフォーマンスを向上させるための新しいデータ拡張技術TokenMixを提案します。
TokenMix は、ミキシング領域を複数の別々の部分に分割することにより、トークン レベルで 2 つの画像をミキシングします。
さらに、CutMix の混合学習ターゲット (グラウンド トゥルース ラベルのペアの線形結合) が不正確で、直感に反する場合があることを示します。
より適切なターゲットを取得するために、事前にトレーニングされた教師モデルからの 2 つの画像のコンテンツ ベースのニューラル アクティベーション マップに従ってターゲット スコアを割り当てることを提案します。これは高性能である必要はありません。
さまざまなビジョン トランスフォーマー アーキテクチャに関する多くの実験により、提案した TokenMix が、ビジョン トランスフォーマーがフォアグラウンド領域に焦点を合わせてクラスを推測し、オクルージョンに対する堅牢性を高め、一貫したパフォーマンスの向上をもたらすことを示しています。
特に、DeiT-T/S/B を +1% の ImageNet トップ 1 精度で改善します。
さらに、TokenMix はより長いトレーニングを楽しんでおり、400 エポックでトレーニングされた DeiT-S を使用して、ImageNet で 81.2% のトップ 1 精度を達成しています。
コードは https://github.com/Sense-X/TokenMix で入手できます。

要約(オリジナル)

CutMix is a popular augmentation technique commonly used for training modern convolutional and transformer vision networks. It was originally designed to encourage Convolution Neural Networks (CNNs) to focus more on an image’s global context instead of local information, which greatly improves the performance of CNNs. However, we found it to have limited benefits for transformer-based architectures that naturally have a global receptive field. In this paper, we propose a novel data augmentation technique TokenMix to improve the performance of vision transformers. TokenMix mixes two images at token level via partitioning the mixing region into multiple separated parts. Besides, we show that the mixed learning target in CutMix, a linear combination of a pair of the ground truth labels, might be inaccurate and sometimes counter-intuitive. To obtain a more suitable target, we propose to assign the target score according to the content-based neural activation maps of the two images from a pre-trained teacher model, which does not need to have high performance. With plenty of experiments on various vision transformer architectures, we show that our proposed TokenMix helps vision transformers focus on the foreground area to infer the classes and enhances their robustness to occlusion, with consistent performance gains. Notably, we improve DeiT-T/S/B with +1% ImageNet top-1 accuracy. Besides, TokenMix enjoys longer training, which achieves 81.2% top-1 accuracy on ImageNet with DeiT-S trained for 400 epochs. Code is available at https://github.com/Sense-X/TokenMix.

arxiv情報

著者 Jihao Liu,Boxiao Liu,Hang Zhou,Hongsheng Li,Yu Liu
発行日 2022-09-12 12:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク