要約
自己学習学習は、非研究データから表現を学習しようとします。
これは、ポイントの埋め込みがその増強の埋め込みに近いことを奨励する損失関数を介して行います。
このシンプルなアイデアは非常にうまく機能しますが、なぜこれが当てはまるのか、理論的には正確には理解されていません。
この論文では、自然な文脈で自己監視された学習を分析します。ガウス混合モデルの次元削減です。
重要なことに、データポイントの増強を、同じ基礎となる混合成分からの別の独立した引き分けとして定義します。
バニラのコントラスト学習(具体的には、infonceの損失)は、ガウスが等方性ではない場合でも、最適な低次元サブスペースを見つけることができることを示しています。
また、「非矛盾」の自己監視学習(つまり、Simsiamの損失)についても同様の結果を証明しています。
さらに、分析をマルチモーダルコントラスト学習アルゴリズム(たとえば、クリップ)に拡張します。
この設定では、対照的な学習がフィッシャーオプティマルサブスペースのサブセットを学習し、学習した表現からのすべてのノイズを効果的に除外することを示します。
最後に、合成データ実験を通じて理論的発見を裏付けています。
要約(オリジナル)
Self-supervised learning attempts to learn representations from un-labeled data; it does so via a loss function that encourages the embedding of a point to be close to that of its augmentations. This simple idea performs remarkably well, yet it is not precisely theoretically understood why this is the case. In this paper we analyze self-supervised learning in a natural context: dimensionality reduction in Gaussian Mixture Models. Crucially, we define an augmentation of a data point as being another independent draw from the same underlying mixture component. We show that vanilla contrastive learning (specifically, the InfoNCE loss) is able to find the optimal lower-dimensional subspace even when the Gaussians are not isotropic — something that vanilla spectral techniques cannot do. We also prove a similar result for ‘non-contrastive’ self-supervised learning (i.e., SimSiam loss). We further extend our analyses to multi-modal contrastive learning algorithms (e.g., CLIP). In this setting we show that contrastive learning learns the subset of fisher-optimal subspace, effectively filtering out all the noise from the learnt representations. Finally, we corroborate our theoretical finding through synthetic data experiments.
arxiv情報
著者 | Parikshit Bansal,Ali Kavis,Sujay Sanghavi |
発行日 | 2025-02-06 18:48:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google