Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget

要約

マスク イメージ モデリング (MIM) メソッドは、マスク オートエンコーダ (MAE) と同様に、入力の豊富な表現を効率的に学習します。
ただし、その豊富な機能はオブジェクトだけでなく関連性の低い画像の背景もコード化するため、下流のタスクに適応するには十分な量のラベル付きデータが必要です。
対照的に、インスタンス識別 (ID) メソッドはオブジェクトに焦点を当てます。
この研究では、大量のラベル付きデータがない場合に下流の分類を実行するための MIM の効率と拡張性を ID の機能と組み合わせる方法を研究します。
この目的を達成するために、最近傍対照学習 (NNCLR) 目標の暗黙的クラスタリングを利用して、事前トレーニングされた MAE の最上位層に抽象化を誘導する逐次的アプローチであるマスク オートエンコーダ対照チューニング (MAE-CT) を導入します。
MAE-CT は、ラベルを使用せずにオブジェクトのセマンティック クラスターを形成するように豊富な機能を調整します。
特に、MAE-CT は手作りの拡張機能に依存せず、最小限の拡張機能 (クロップと反転) のみを使用して最高のパフォーマンスを実現することがよくあります。
さらに、MAE-CT は、MAE 再トレーニングと比較して必要なオーバーヘッドが最大 10% であるため、計算効率が優れています。
MAE-CT は、大規模かつ巨大な Vision Transformer (ViT) モデルに適用されるため、線形プロービング、k-NN、ローショット分類精度、教師なしクラスタリング精度において、ImageNet でトレーニングされた以前の自己教師あり手法よりも優れています。
ViT-H/16 MAE-CT は、82.2% という新しい最先端のリニア プロービングを実現します。

要約(オリジナル)

Masked Image Modeling (MIM) methods, like Masked Autoencoders (MAE), efficiently learn a rich representation of the input. However, for adapting to downstream tasks, they require a sufficient amount of labeled data since their rich features code not only objects but also less relevant image background. In contrast, Instance Discrimination (ID) methods focus on objects. In this work, we study how to combine the efficiency and scalability of MIM with the ability of ID to perform downstream classification in the absence of large amounts of labeled data. To this end, we introduce Masked Autoencoder Contrastive Tuning (MAE-CT), a sequential approach that utilizes the implicit clustering of the Nearest Neighbor Contrastive Learning (NNCLR) objective to induce abstraction in the topmost layers of a pre-trained MAE. MAE-CT tunes the rich features such that they form semantic clusters of objects without using any labels. Notably, MAE-CT does not rely on hand-crafted augmentations and frequently achieves its best performances while using only minimal augmentations (crop & flip). Further, MAE-CT is compute efficient as it requires at most 10% overhead compared to MAE re-training. Applied to large and huge Vision Transformer (ViT) models, MAE-CT excels over previous self-supervised methods trained on ImageNet in linear probing, k-NN and low-shot classification accuracy as well as in unsupervised clustering accuracy. With ViT-H/16 MAE-CT achieves a new state-of-the-art in linear probing of 82.2%.

arxiv情報

著者 Johannes Lehner,Benedikt Alkin,Andreas Fürst,Elisabeth Rumetshofer,Lukas Miklautz,Sepp Hochreiter
発行日 2023-09-14 17:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク