When can we Approximate Wide Contrastive Models with Neural Tangent Kernels and Principal Component Analysis?

要約

対照学習は、ラベルのないデータから表現を学習するパラダイムであり、画像データやテキスト データに対して非常に成功しています。
最近のいくつかの研究では、対比損失を調べて、対比モデルがスペクトル埋め込みを効果的に学習すると主張していますが、(広範な) 対比モデルとカーネル主成分分析 (PCA) との関係を示した研究はほとんどありません。
ただし、トレーニングされた対照モデルが実際にカーネル法または PCA に対応するかどうかは不明です。
この研究では、非線形活性化を使用した 2 層の対照モデルのトレーニング ダイナミクスを分析し、これらのモデルが PCA またはカーネル手法に近い場合に答えます。
教師あり設定では、ニューラル ネットワークがニューラル タンジェント カーネル (NTK) マシンと同等であり、無限幅のネットワークの NTK がトレーニング中に一定のままであることはよく知られています。
コントラスト損失に対する NTK の最初の収束結果を提供し、微妙な状況を示します。ワイド ネットワークの NTK は、コサイン類似性に基づくコントラスト損失ではほぼ一定のままですが、ドット積類似性に基づく損失では変化しません。
さらに、出力層に直交性制約を設けた対比モデルのトレーニング ダイナミクスを研究します。これは、対比学習をスペクトル埋め込みに関連付ける研究で暗黙的に想定されています。
私たちの偏差限界は、対照モデルによって学習された表現が、ランダムな特徴から計算された特定の行列の主成分に近いことを示唆しています。
私たちは、理論的結果が 2 層ネットワークを超えて保持される可能性があることを経験的に示します。

要約(オリジナル)

Contrastive learning is a paradigm for learning representations from unlabelled data that has been highly successful for image and text data. Several recent works have examined contrastive losses to claim that contrastive models effectively learn spectral embeddings, while few works show relations between (wide) contrastive models and kernel principal component analysis (PCA). However, it is not known if trained contrastive models indeed correspond to kernel methods or PCA. In this work, we analyze the training dynamics of two-layer contrastive models, with non-linear activation, and answer when these models are close to PCA or kernel methods. It is well known in the supervised setting that neural networks are equivalent to neural tangent kernel (NTK) machines, and that the NTK of infinitely wide networks remains constant during training. We provide the first convergence results of NTK for contrastive losses, and present a nuanced picture: NTK of wide networks remains almost constant for cosine similarity based contrastive losses, but not for losses based on dot product similarity. We further study the training dynamics of contrastive models with orthogonality constraints on output layer, which is implicitly assumed in works relating contrastive learning to spectral embedding. Our deviation bounds suggest that representations learned by contrastive models are close to the principal components of a certain matrix computed from random features. We empirically show that our theoretical results possibly hold beyond two-layer networks.

arxiv情報

著者 Gautham Govind Anil,Pascal Esser,Debarghya Ghoshdastidar
発行日 2024-03-13 16:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク