要約
我々はMIM(Masked Image Modeling)-Refinerを紹介する。MIM-Refinerは、事前に訓練されたMIMモデルのための対比学習ブーストである。MIM-Refinerは、MIMモデル内の強力な表現は一般的に中間層に存在するという洞察に動機づけられている。従って、MIM-Refinerは、異なる中間層に接続された複数の対比的ヘッドを活用する。各ヘッドにおいて、修正された最近傍目的語が、既製品や微調整設定を含む下流タスクの性能を向上させる意味情報を捕捉する意味クラスタを構築する。 洗練プロセスは短時間でシンプルであり、しかも非常に効果的である。数エポック以内に、MIMモデルの特徴を、劣悪なものから最先端の既製の特徴まで洗練させる。ImageNet-1K上でdata2vec 2.0で事前訓練されたViT-Hを精緻化することで、ImageNet-1K上で事前訓練されたモデルの中で、線形プロービング(84.7%)とローショット分類において新たな最先端を打ち立てた。ImageNet-1Kの1ショット分類では、MIM-RefinerはDINOv2-g、OpenCLIP-G、MAWS-6.5Bのような最大2000倍のデータで訓練された大規模モデルを凌駕し、64.2%まで最先端を進めます。
要約(オリジナル)
We introduce MIM (Masked Image Modeling)-Refiner, a contrastive learning boost for pre-trained MIM models. MIM-Refiner is motivated by the insight that strong representations within MIM models generally reside in intermediate layers. Accordingly, MIM-Refiner leverages multiple contrastive heads that are connected to different intermediate layers. In each head, a modified nearest neighbor objective constructs semantic clusters that capture semantic information which improves performance on downstream tasks, including off-the-shelf and fine-tuning settings. The refinement process is short and simple – yet highly effective. Within a few epochs, we refine the features of MIM models from subpar to state-of-the-art, off-the-shelf features. Refining a ViT-H, pre-trained with data2vec 2.0 on ImageNet-1K, sets a new state-of-the-art in linear probing (84.7%) and low-shot classification among models that are pre-trained on ImageNet-1K. At ImageNet-1K 1-shot classification, MIM-Refiner advances the state-of-the-art to 64.2%, outperforming larger models that were trained on up to 2000 times more data such as DINOv2-g, OpenCLIP-G and MAWS-6.5B.
arxiv情報
著者 | Benedikt Alkin,Lukas Miklautz,Sepp Hochreiter,Johannes Brandstetter |
発行日 | 2024-06-03 17:51:58+00:00 |
arxivサイト | arxiv_id(pdf) |