DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets

要約

ヴィジョン・トランスフォーマー(ViT)は、様々なコンピュータ・ビジョン・タスクのための著名なアーキテクチャとして登場した。ViTでは、入力画像をパッチトークンに分割し、自己注意ブロックのスタックを通して処理する。しかし、畳み込みニューラルネットワーク(CNN)とは異なり、ViTの単純なアーキテクチャには、情報的な帰納的バイアス(局所性など)がない。このため、ViTは事前学習に大量のデータを必要とする。バランスの取れたデータセットでViTを効果的に訓練するために、様々なデータ効率的アプローチ(DeiT)が提案されている。しかし、長尾のアンバランスを持つデータセットに対するViTの使用について論じた文献は限られている。本研究では、長尾のデータセットに対してゼロからViTを訓練する問題に取り組むために、DeiT-LTを導入する。DeiT-LTでは、CNNから蒸留DISTトークンを経由して蒸留する効率的で効果的な方法を導入する。蒸留DISTトークンは、分布外の画像を使用し、テールクラスへのフォーカスを強化するために蒸留損失を再重み付けする。これにより、初期のViTブロックで局所的なCNNのような特徴が学習され、テールクラスに対する汎化が改善される。さらに、オーバーフィッティングを緩和するために、平坦なCNN教師からの蒸留を提案し、これは全てのViTブロックにわたるDISTトークンに対して低ランクの汎化可能な特徴を学習することにつながる。提案するDeiT-LT方式により、蒸留DISTトークンはテールクラスのエキスパートになり、分類器CLSトークンはヘッドクラスのエキスパートになる。このエキスパートにより、同じViTアーキテクチャ内で、異なるトークンの集合を用いて、多数クラスと少数クラスの両方に対応する特徴を効果的に学習することができる。小規模なCIFAR-10 LTから大規模なiNaturalist-2018までのデータセットにおいて、ゼロからViTを学習するためのDeiT-LTの有効性を示す。

要約(オリジナル)

Vision Transformer (ViT) has emerged as a prominent architecture for various computer vision tasks. In ViT, we divide the input image into patch tokens and process them through a stack of self attention blocks. However, unlike Convolutional Neural Networks (CNN), ViTs simple architecture has no informative inductive bias (e.g., locality,etc. ). Due to this, ViT requires a large amount of data for pre-training. Various data efficient approaches (DeiT) have been proposed to train ViT on balanced datasets effectively. However, limited literature discusses the use of ViT for datasets with long-tailed imbalances. In this work, we introduce DeiT-LT to tackle the problem of training ViTs from scratch on long-tailed datasets. In DeiT-LT, we introduce an efficient and effective way of distillation from CNN via distillation DIST token by using out-of-distribution images and re-weighting the distillation loss to enhance focus on tail classes. This leads to the learning of local CNN-like features in early ViT blocks, improving generalization for tail classes. Further, to mitigate overfitting, we propose distilling from a flat CNN teacher, which leads to learning low-rank generalizable features for DIST tokens across all ViT blocks. With the proposed DeiT-LT scheme, the distillation DIST token becomes an expert on the tail classes, and the classifier CLS token becomes an expert on the head classes. The experts help to effectively learn features corresponding to both the majority and minority classes using a distinct set of tokens within the same ViT architecture. We show the effectiveness of DeiT-LT for training ViT from scratch on datasets ranging from small-scale CIFAR-10 LT to large-scale iNaturalist-2018.

arxiv情報

著者 Harsh Rangwani,Pradipto Mondal,Mayank Mishra,Ashish Ramayee Asokan,R. Venkatesh Babu
発行日 2024-04-03 17:58:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク