A Probabilistic Model to explain Self-Supervised Representation Learning

要約

自己教師あり学習(SSL)は、異なるデータ補強やモダリティなど、意味的に関連するサンプルを分類するような、補助的な教師なしタスクを活用して表現を学習する。SSLへの多くのアプローチのうち、SimCLR、CLIP、VicREGなどの対照学習法は、教師あり学習に近い下流性能を達成する表現学習法として注目されている。しかし、これらの手法の背後にあるメカニズムの理論的理解は進んでいない。我々は、データに対する生成的潜在変数モデルを提案し、対比法を含むいくつかの識別的自己教師付きアルゴリズムファミリーが、表現上の潜在構造を近似的に誘導することを示し、統一的な理論的枠組みを提供する。また、相互情報と射影ヘッドの使用との関連も正当化する。SimVEのように、我々のモデルを生成的に当てはめることで、一般的なベンチマーク(FashionMNIST、CIFAR10、CelebAなど)において、これまでのVAE手法よりも性能が向上し、_content_分類において識別手法との差を縮め、我々の分析が予測するように、_style_情報が必要な場合にはそれらを上回り、タスクにとらわれない表現への一歩を踏み出す。

要約(オリジナル)

Self-supervised learning (SSL) learns representations by leveraging an auxiliary unsupervised task, such as classifying semantically related samples, e.g. different data augmentations or modalities. Of the many approaches to SSL, contrastive methods, e.g. SimCLR, CLIP and VicREG, have gained attention for learning representations that achieve downstream performance close to that of supervised learning. However, a theoretical understanding of the mechanism behind these methods eludes. We propose a generative latent variable model for the data and show that several families of discriminative self-supervised algorithms, including contrastive methods, approximately induce its latent structure over representations, providing a unifying theoretical framework. We also justify links to mutual information and the use of a projection head. Fitting our model generatively, as SimVE, improves performance over previous VAE methods on common benchmarks (e.g. FashionMNIST, CIFAR10, CelebA), narrows the gap to discriminative methods on _content_ classification and, as our analysis predicts, outperforms them where _style_ information is required, taking a step toward task-agnostic representations.

arxiv情報

著者 Alice Bizeul,Bernhard Schölkopf,Carl Allen
発行日 2024-02-02 13:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク