On the duality between contrastive and non-contrastive self-supervised learning

要約

画像表現の自己教師あり学習における最近のアプローチは、さまざまな方法群に分類でき、特に、対照的アプローチと非対照的アプローチに分類できます。
新しいアプローチを動機付けるために 2 つのファミリーの違いが徹底的に議論されていますが、私たちはそれらの間の理論的な類似点にさらに焦点を当てます。
代数的に関連付けることができ、限られた仮定の下で同等であることを示すことができる、対照的および共分散に基づく非対照的な基準を設計することにより、これらのファミリーがどれほど近くなるかを示します。
私たちは、一般的な方法をさらに研究し、そのバリエーションを導入することで、この理論的結果を現在の実践に関連付け、設計の選択が下流のパフォーマンスに及ぼす影響(または影響の欠如)を示すことができます。
等価性の結果を動機として、SimCLR のパフォーマンスの低さを調査し、注意深くハイパーパラメータを調整することでどのように VICReg と一致し、既知のベースラインを大幅に改善できるかを示します。
また、非対照的な手法には大きな出力サイズが必要であるという一般的な仮定にも異議を唱えます。
私たちの理論的かつ定量的な結果は、より適切なネットワーク設計の選択とハイパーパラメーターの調整があれば、特定の領域における対照的手法と非対照的手法の間の数値的なギャップを埋めることができることを示唆しています。
証拠は、異なる SOTA メソッドを統合することが、自己教師あり学習をより深く理解するための重要な方向性であることを示しています。

要約(オリジナル)

Recent approaches in self-supervised learning of image representations can be categorized into different families of methods and, in particular, can be divided into contrastive and non-contrastive approaches. While differences between the two families have been thoroughly discussed to motivate new approaches, we focus more on the theoretical similarities between them. By designing contrastive and covariance based non-contrastive criteria that can be related algebraically and shown to be equivalent under limited assumptions, we show how close those families can be. We further study popular methods and introduce variations of them, allowing us to relate this theoretical result to current practices and show the influence (or lack thereof) of design choices on downstream performance. Motivated by our equivalence result, we investigate the low performance of SimCLR and show how it can match VICReg’s with careful hyperparameter tuning, improving significantly over known baselines. We also challenge the popular assumption that non-contrastive methods need large output dimensions. Our theoretical and quantitative results suggest that the numerical gaps between contrastive and non-contrastive methods in certain regimes can be closed given better network design choices and hyperparameter tuning. The evidence shows that unifying different SOTA methods is an important direction to build a better understanding of self-supervised learning.

arxiv情報

著者 Quentin Garrido,Yubei Chen,Adrien Bardes,Laurent Najman,Yann Lecun
発行日 2023-06-26 12:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク