Contrastive Learning Is Spectral Clustering On Similarity Graph

要約

対照学習は強力な自己教師あり学習方法ですが、それがどのように機能し、なぜ機能するのかについての理論的理解は限られています。
このホワイト ペーパーでは、標準の InfoNCE 損失を使用した対照学習が、類似度グラフでのスペクトル クラスタリングと同等であることを証明します。
この同等性を構成要素として使用して、分析を CLIP モデルに拡張し、類似のマルチモーダル オブジェクトがどのように一緒に埋め込まれているかを厳密に特徴付けます。
理論的な洞察に基づいて、カーネル混合損失を導入し、いくつかのビジョンデータセットで標準のガウスカーネルよりも優れた新しいカーネル関数を組み込みます。

要約(オリジナル)

Contrastive learning is a powerful self-supervised learning method, but we have a limited theoretical understanding of how it works and why it works. In this paper, we prove that contrastive learning with the standard InfoNCE loss is equivalent to spectral clustering on the similarity graph. Using this equivalence as the building block, we extend our analysis to the CLIP model and rigorously characterize how similar multi-modal objects are embedded together. Motivated by our theoretical insights, we introduce the kernel mixture loss, incorporating novel kernel functions that outperform the standard Gaussian kernel on several vision datasets.

arxiv情報

著者 Zhiquan Tan,Yifan Zhang,Jingqin Yang,Yang Yuan
発行日 2023-03-27 11:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク