要約
共同埋め込み自己教師あり学習法の訓練プロセスの簡単な図を示します。
これらの方法は、離散的で十分に分離された一連のステップで一度に 1 次元ずつ高次元の埋め込みを学習することがわかりました。
私たちは、訓練されたネットワークが無限に広い場合に適用できる Barlow Twins の線形化モデルの研究を通じて、この結論に達しました。
このモデルのトレーニングダイナミクスを小さな初期化から解き、モデルが特定の対照的なカーネルの最上位固有モードを段階的に学習し、最終的に学習された表現の閉形式を取得することがわかりました。
驚くべきことに、Barlow Twins、SimCLR、および VICReg 損失を使用してディープ ResNet をトレーニングするときにも、同じ段階的学習現象が見られます。
私たちの理論は、カーネル回帰が教師あり学習のモデルとして考えられるのと同じように、カーネル PCA が自己教師あり学習の有用なモデルとして機能する可能性があることを示唆しています。
要約(オリジナル)
We present a simple picture of the training process of joint embedding self-supervised learning methods. We find that these methods learn their high-dimensional embeddings one dimension at a time in a sequence of discrete, well-separated steps. We arrive at this conclusion via the study of a linearized model of Barlow Twins applicable to the case in which the trained network is infinitely wide. We solve the training dynamics of this model from small initialization, finding that the model learns the top eigenmodes of a certain contrastive kernel in a stepwise fashion, and obtain a closed-form expression for the final learned representations. Remarkably, we then see the same stepwise learning phenomenon when training deep ResNets using the Barlow Twins, SimCLR, and VICReg losses. Our theory suggests that, just as kernel regression can be thought of as a model of supervised learning, kernel PCA may serve as a useful model of self-supervised learning.
arxiv情報
著者 | James B. Simon,Maksis Knutins,Liu Ziyin,Daniel Geisz,Abraham J. Fetterman,Joshua Albrecht |
発行日 | 2023-05-30 17:25:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google