要約
【タイトル】Contrastive Tuning:マスクされたオートエンコーダーを忘れさせるための少しの支援
【要約】
– マスクイメージモデリング(MIM)方法、特にマスクされたオートエンコーダー(MAE)は、入力の豊富な表現を効率的に学習するが、下流タスクに適合するためには、十分なラベル付きデータが必要である。
– これに対し、インスタンス識別(ID)方法はオブジェクトに焦点を当てている。
– 本研究では、MAEの効率性とスケーラビリティを、IDの能力と組み合わせて大量のラベル付きデータがない場合に下流分類を実行できることを研究している。
– そのために、事前学習済みのMAEに最近傍コントラスティブ学習(NNCLR)を適用する逐次的なアプローチである、マスクされたオートエンコーダーコントラスティブチューニング(MAE-CT)を紹介する。
– MAE-CTは、ラベルを使用せずに、豊富な特徴を調整して、オブジェクトの意味的クラスタを形成する。
– 大きくて巨大なビジョン トランスフォーマー(ViT)モデルに適用され、MAE-CTは、線形プロービング、k-NN、低ショット分類精度、非監視クラスタリング精度の点で、ImageNetで訓練された前の自己教育方法と同等または優れた結果を示す。
– ID方法は一般的にショートカット学習を避けるために手作りの拡張に頼っているが、最近傍検索が十分であることがわかり、このデータドリブンの拡張効果はモデルサイズと共に向上する。
– MAE-CTは、計算効率が高く、8つのA100 GPUを使用してわずか5時間で、MAE事前学習済みのViT-L/16からImageNet 1%低ショット精度を67.7%から72.6%、線形プロービング精度を76.0%から80.2%、k-NN精度を60.6%から79.1%に向上させることができる。
要約(オリジナル)
Masked Image Modeling (MIM) methods, like Masked Autoencoders (MAE), efficiently learn a rich representation of the input. However, for adapting to downstream tasks, they require a sufficient amount of labeled data since their rich features capture not only objects but also less relevant image background. In contrast, Instance Discrimination (ID) methods focus on objects. In this work, we study how to combine the efficiency and scalability of MIM with the ability of ID to perform downstream classification in the absence of large amounts of labeled data. To this end, we introduce Masked Autoencoder Contrastive Tuning (MAE-CT), a sequential approach that applies Nearest Neighbor Contrastive Learning (NNCLR) to a pre-trained MAE. MAE-CT tunes the rich features such that they form semantic clusters of objects without using any labels. Applied to large and huge Vision Transformer (ViT) models, MAE-CT matches or excels previous self-supervised methods trained on ImageNet in linear probing, k-NN and low-shot classification accuracy as well as in unsupervised clustering accuracy. Notably, similar results can be achieved without additional image augmentations. While ID methods generally rely on hand-crafted augmentations to avoid shortcut learning, we find that nearest neighbor lookup is sufficient and that this data-driven augmentation effect improves with model size. MAE-CT is compute efficient. For instance, starting from a MAE pre-trained ViT-L/16, MAE-CT increases the ImageNet 1% low-shot accuracy from 67.7% to 72.6%, linear probing accuracy from 76.0% to 80.2% and k-NN accuracy from 60.6% to 79.1% in just five hours using eight A100 GPUs.
arxiv情報
著者 | Johannes Lehner,Benedikt Alkin,Andreas Fürst,Elisabeth Rumetshofer,Lukas Miklautz,Sepp Hochreiter |
発行日 | 2023-04-20 17:51:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI