$f$-MICL: Understanding and Generalizing InfoNCE-based Contrastive Learning

要約

自己教師あり対比学習では、広く採用されている目的関数は InfoNCE です。これは表現比較にヒューリスティック コサイン類似度を使用し、カルバック ライブラー (KL) ベースの相互情報量の最大化に密接に関連しています。
このホワイトペーパーでは、次の 2 つの興味深い質問に答えることを目的としています: (1) KL ベースの目標を超えることができますか?
(2) 一般的なコサイン類似度以外に、より優れた類似度関数を設計できるでしょうか?
$f$-発散を使用して、KL ベースの相互情報量を $f$-Mutual Information in Contrastive Learning ($f$-MICL) に一般化することで、両方の質問に対する答えを提供します。
最初の質問に答えるために、我々は、InfoNCE の優れた特性 (整列や均一性など) を共有しながら、同様の、またはさらに優れたパフォーマンスをもたらす幅広い $f$-MICL 目標を提供します。
2 番目の質問では、結合特徴分布がガウス カーネルに比例すると仮定して、より良い解釈可能性と経験的パフォーマンスを備えた $f$-ガウス類似度を導出します。
最後に、$f$-MICL 目標といくつかの一般的な InfoNCE ベースの目標との密接な関係を特定します。
視覚と自然言語の両方からのベンチマーク タスクを使用して、さまざまなアーキテクチャ (SimCLR、MoCo、および MoCo v3) およびデータセット上でさまざまな $f$-divergence を持つ $f$-MICL を経験的に評価します。
$f$-MICL は一般にベンチマークよりも優れており、最高のパフォーマンスを示す $f$-divergence はタスクとデータセットに依存することがわかります。

要約(オリジナル)

In self-supervised contrastive learning, a widely-adopted objective function is InfoNCE, which uses the heuristic cosine similarity for the representation comparison, and is closely related to maximizing the Kullback-Leibler (KL)-based mutual information. In this paper, we aim at answering two intriguing questions: (1) Can we go beyond the KL-based objective? (2) Besides the popular cosine similarity, can we design a better similarity function? We provide answers to both questions by generalizing the KL-based mutual information to the $f$-Mutual Information in Contrastive Learning ($f$-MICL) using the $f$-divergences. To answer the first question, we provide a wide range of $f$-MICL objectives which share the nice properties of InfoNCE (e.g., alignment and uniformity), and meanwhile result in similar or even superior performance. For the second question, assuming that the joint feature distribution is proportional to the Gaussian kernel, we derive an $f$-Gaussian similarity with better interpretability and empirical performance. Finally, we identify close relationships between the $f$-MICL objective and several popular InfoNCE-based objectives. Using benchmark tasks from both vision and natural language, we empirically evaluate $f$-MICL with different $f$-divergences on various architectures (SimCLR, MoCo, and MoCo v3) and datasets. We observe that $f$-MICL generally outperforms the benchmarks and the best-performing $f$-divergence is task and dataset dependent.

arxiv情報

著者 Yiwei Lu,Guojun Zhang,Sun Sun,Hongyu Guo,Yaoliang Yu
発行日 2024-02-15 17:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク