要約
事前トレーニングされた MIM モデルの対照的な学習ブーストである MIM (Masked Image Modeling)-Refiner を紹介します。
MIM-Refiner の背後にある動機は、MIM モデル内の最適な表現は一般に中間層に存在するという洞察に基づいています。
したがって、MIM-Refiner は、さまざまな中間層に接続された複数のコントラスト ヘッドを活用します。
各ヘッドでは、修正された最近傍オブジェクトがそれぞれのセマンティック クラスターの構築に役立ちます。
精製プロセスは短いですが効果的です。
数エポック以内に、私たちは MIM モデルの機能を標準以下の機能から最先端の既製の機能まで改良しました。
ImageNet-1K 上で data2vec 2.0 で事前トレーニングされた ViT-H を改良すると、ImageNet-1K で事前トレーニングされたモデル間の線形プローブ (84.7%) とローショット分類において新しい最先端の結果が得られます。
。
ImageNet-1K の 1 ショット分類では、MIM-Refiner は 64.2% という新たな最先端を設定し、DINOv2-g、OpenCLIP-G、MAWS などの最大 2000 倍のデータでトレーニングされた大規模モデルを上回るパフォーマンスを発揮します。
6.5B。
プロジェクトページ: https://ml-jku.github.io/MIM-Refiner
要約(オリジナル)
We introduce MIM (Masked Image Modeling)-Refiner, a contrastive learning boost for pre-trained MIM models. The motivation behind MIM-Refiner is rooted in the insight that optimal representations within MIM models generally reside in intermediate layers. Accordingly, MIM-Refiner leverages multiple contrastive heads that are connected to diverse intermediate layers. In each head, a modified nearest neighbor objective helps to construct respective semantic clusters. The refinement process is short but effective. Within a few epochs, we refine the features of MIM models from subpar to state-of-the-art, off-the-shelf features. Refining a ViT-H, pre-trained with data2vec 2.0 on ImageNet-1K, achieves new state-of-the-art results in linear probing (84.7%) and low-shot classification among models that are pre-trained on ImageNet-1K. In ImageNet-1K 1-shot classification, MIM-Refiner sets a new state-of-the-art of 64.2%, outperforming larger models that were trained on up to 2000x more data such as DINOv2-g, OpenCLIP-G and MAWS-6.5B. Project page: https://ml-jku.github.io/MIM-Refiner
arxiv情報
著者 | Benedikt Alkin,Lukas Miklautz,Sepp Hochreiter,Johannes Brandstetter |
発行日 | 2024-02-15 16:46:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google