On the stepwise nature of self-supervised learning

要約

共同埋め込みネットワークを使用した自己教師あり学習法のトレーニング プロセスの簡単な図を示します。
これらのメソッドは、離散的で十分に分離された一連のステップで、一度に 1 次元ずつ高次元の埋め込みを学習することがわかりました。
訓練されたネットワークが無限に広い場合に適用可能な Barlow Twins の線形化されたモデルの研究を通じて、この結論に達しました。
このモデルのトレーニングダイナミクスを小さな初期化から解き、モデルが特定の対照的なカーネルの上位固有モードを段階的に学習し、最終的に学習した表現の閉形式式を取得することを発見しました。
驚くべきことに、Barlow Twins、SimCLR、および VICReg 損失を使用して深い ResNet をトレーニングすると、同じ段階的学習現象が見られます。
私たちの理論は、カーネル回帰が教師あり学習のモデルと考えられるように、\textit{kernel PCA} が自己教師あり学習の有用なモデルとして機能する可能性があることを示唆しています。

要約(オリジナル)

We present a simple picture of the training process of self-supervised learning methods with joint embedding networks. We find that these methods learn their high-dimensional embeddings one dimension at a time in a sequence of discrete, well-separated steps. We arrive at this conclusion via the study of a linearized model of Barlow Twins applicable to the case in which the trained network is infinitely wide. We solve the training dynamics of this model from small initialization, finding that the model learns the top eigenmodes of a certain contrastive kernel in a stepwise fashion, and obtain a closed-form expression for the final learned representations. Remarkably, we then see the same stepwise learning phenomenon when training deep ResNets using the Barlow Twins, SimCLR, and VICReg losses. Our theory suggests that, just as kernel regression can be thought of as a model of supervised learning, \textit{kernel PCA} may serve as a useful model of self-supervised learning.

arxiv情報

著者 James B. Simon,Maksis Knutins,Liu Ziyin,Daniel Geisz,Abraham J. Fetterman,Joshua Albrecht
発行日 2023-03-27 17:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク