On the duality between contrastive and non-contrastive self-supervised learning

要約

画像表現の自己教師付き学習における最近のアプローチは、異なる手法ファミリーに分類され、特に、対照的アプローチと非対照的アプローチに分けることができる。この2つの系列の違いは、新しいアプローチの動機付けとして十分に議論されているが、我々は、この2つの系列の理論的な類似性にもっと焦点を当てる。代数的に関連付けられ、限られた仮定の下で等価であることを示すことができる対照的基準と共分散に基づく非対照的基準を設計することによって、これらのファミリーがいかに近いものであるかを明らかにする。さらに、一般的な手法を研究し、そのバリエーションを紹介することで、この理論的な結果を現在の実務に関連付け、設計の選択が下流の性能に与える影響(またはその欠如)を示すことができる。等価性の結果を動機として、SimCLRの低性能を調査し、注意深くハイパーパラメータを調整することにより、VICRegと一致し、既知のベースラインより大幅に改善する方法を示す。また、対照法と非対照法がそれぞれ大きなバッチサイズと出力次元を必要とするという一般的な仮定に挑戦する。我々の理論的・定量的結果は、ネットワーク設計の選択とハイパーパラメータのチューニングを改善すれば、ある領域における対照法と非対照法の間の数値的ギャップを縮めることができることを示唆している。これらの結果から、異なるSOTA手法を統一することは、自己教師あり学習の理解を深める上で重要な方向性であることが示された。

要約(オリジナル)

Recent approaches in self-supervised learning of image representations can be categorized into different families of methods and, in particular, can be divided into contrastive and non-contrastive approaches. While differences between the two families have been thoroughly discussed to motivate new approaches, we focus more on the theoretical similarities between them. By designing contrastive and covariance based non-contrastive criteria that can be related algebraically and shown to be equivalent under limited assumptions, we show how close those families can be. We further study popular methods and introduce variations of them, allowing us to relate this theoretical result to current practices and show the influence (or lack thereof) of design choices on downstream performance. Motivated by our equivalence result, we investigate the low performance of SimCLR and show how it can match VICReg’s with careful hyperparameter tuning, improving significantly over known baselines. We also challenge the popular assumptions that contrastive and non-contrastive methods, respectively, need large batch sizes and output dimensions. Our theoretical and quantitative results suggest that the numerical gaps between contrastive and non-contrastive methods in certain regimes can be closed given better network design choices and hyperparameter tuning. The evidence shows that unifying different SOTA methods is an important direction to build a better understanding of self-supervised learning.

arxiv情報

著者 Quentin Garrido,Yubei Chen,Adrien Bardes,Laurent Najman,Yann Lecun
発行日 2022-10-05 14:05:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク