Contrastive Learning Is Spectral Clustering On Similarity Graph

要約

対照学習は強力な自己教師あり学習方法ですが、それがどのように機能するのか、またなぜ機能するのかについての理論的な理解は限られています。
この論文では、標準的な InfoNCE 損失を使用した対比学習が、類似度グラフ上のスペクトル クラスタリングと同等であることを証明します。
この等価性を構築ブロックとして使用して、分析を CLIP モデルに拡張し、類似したマルチモーダル オブジェクトがどのように一緒に埋め込まれているかを厳密に特徴付けます。
理論的な洞察に基づいて、いくつかの視覚データセットで標準のガウス カーネルを上回る新しいカーネル関数を組み込んだカーネル混合損失を導入します。

要約(オリジナル)

Contrastive learning is a powerful self-supervised learning method, but we have a limited theoretical understanding of how it works and why it works. In this paper, we prove that contrastive learning with the standard InfoNCE loss is equivalent to spectral clustering on the similarity graph. Using this equivalence as the building block, we extend our analysis to the CLIP model and rigorously characterize how similar multi-modal objects are embedded together. Motivated by our theoretical insights, we introduce the kernel mixture loss, incorporating novel kernel functions that outperform the standard Gaussian kernel on several vision datasets.

arxiv情報

著者 Zhiquan Tan,Yifan Zhang,Jingqin Yang,Yang Yuan
発行日 2023-05-30 14:40:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク