MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments

要約

自己教師あり学習は、非常に大規模で完全にアノテーションが付けられたデータセットに対する Vision Transformer ネットワークの貪欲なニーズを軽減するために使用できます。
自己教師あり学習のさまざまなクラスは、マスクされた画像モデリング戦略を使用するなど、優れた文脈推論特性を備えた表現、または対照的な手法を使用するなど、画像の摂動に対する不変性を備えた表現を提供します。
この研究では、(ピクセル レベルの詳細の代わりに) 高レベルの機能で定義された新しいマスクと予測の目的を使用して、両方の望ましい特性を統合する、単一段階のスタンドアロン手法である MOCA を提案します。
さらに、両方の学習パラダイムを相乗的かつ計算効率の高い方法で効果的に採用する方法を示します。
これにより、従来の方法よりも少なくとも 3 倍高速なトレーニングにより、ローショット設定での新しい最先端の結果と、さまざまな評価プロトコルでの強力な実験結果が得られます。

要約(オリジナル)

Self-supervised learning can be used for mitigating the greedy needs of Vision Transformer networks for very large fully-annotated datasets. Different classes of self-supervised learning offer representations with either good contextual reasoning properties, e.g., using masked image modeling strategies, or invariance to image perturbations, e.g., with contrastive methods. In this work, we propose a single-stage and standalone method, MOCA, which unifies both desired properties using novel mask-and-predict objectives defined with high-level features (instead of pixel-level details). Moreover, we show how to effectively employ both learning paradigms in a synergistic and computation-efficient way. Doing so, we achieve new state-of-the-art results on low-shot settings and strong experimental results in various evaluation protocols with a training that is at least 3 times faster than prior methods.

arxiv情報

著者 Spyros Gidaris,Andrei Bursuc,Oriane Simeoni,Antonin Vobecky,Nikos Komodakis,Matthieu Cord,Patrick Pérez
発行日 2023-07-18 15:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク