要約
【タイトル】
Vision TransformerのためのMaskMixとProgressive Attention Labelingによるデータ拡張MixPro
【要約】
– 最近提案されたデータ拡張アルゴリズムTransMixは、Attentionラベルを使用することでVision Transformer(ViT)の性能向上に役立つことがわかったが、2つの問題がある。
– TransMixの画像切り抜き方法が、Vision Transformerに適していない可能性がある。
– 訓練の初期段階では、モデルが信頼できないAttentionマップを生成するため、TransMixはモデルに影響を与える混合Attentionラベルを計算に使用する必要がある。
– 上記の問題に対処するために、MaskMixとProgressive Attention Labeling(PAL)を提案する。
– 画像空間では、グリッド状のマスクで2つの画像を混ぜるMaskMixを設計する。マスクのパッチサイズは画像パッチサイズの倍数であり、各画像パッチは1つの画像からのみ取得され、より大域的な情報を含むようにする。
– ラベル空間では、混合AttentionラベルのAttentionウェイトを動的に再調整するPALを設計する。
– このMaskMixとProgressive Attention Labelingを組み合わせたデータ拡張手法MixProは、ImageNet分類の複数のViTモデルの性能を向上させることができ、イメージネットの300エポックに基づいてDeiT-Tで73.8%のトップ1精度を達成できる。
– MixProでImageNetで事前学習されたViTベースのモデルは、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションに対する転移性能も向上する。
– さらに、TransMixと比較して、MixProは複数のベンチマークでより強力な性能を示す。コードはhttps://github.com/fistyee/MixProに公開される。
要約(オリジナル)
The recently proposed data augmentation TransMix employs attention labels to help visual transformers (ViT) achieve better robustness and performance. However, TransMix is deficient in two aspects: 1) The image cropping method of TransMix may not be suitable for vision transformer. 2) At the early stage of training, the model produces unreliable attention maps. TransMix uses unreliable attention maps to compute mixed attention labels that can affect the model. To address the aforementioned issues, we propose MaskMix and Progressive Attention Labeling (PAL) in image and label space, respectively. In detail, from the perspective of image space, we design MaskMix, which mixes two images based on a patch-like grid mask. In particular, the size of each mask patch is adjustable and is a multiple of the image patch size, which ensures each image patch comes from only one image and contains more global contents. From the perspective of label space, we design PAL, which utilizes a progressive factor to dynamically re-weight the attention weights of the mixed attention label. Finally, we combine MaskMix and Progressive Attention Labeling as our new data augmentation method, named MixPro. The experimental results show that our method can improve various ViT-based models at scales on ImageNet classification (73.8\% top-1 accuracy based on DeiT-T for 300 epochs). After being pre-trained with MixPro on ImageNet, the ViT-based models also demonstrate better transferability to semantic segmentation, object detection, and instance segmentation. Furthermore, compared to TransMix, MixPro also shows stronger robustness on several benchmarks. The code will be released at https://github.com/fistyee/MixPro.
arxiv情報
著者 | Qihao Zhao,Yangyu Huang,Wei Hu,Fan Zhang,Jun Liu |
発行日 | 2023-04-24 12:38:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI