$\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs

要約

優れた表現を学習するには、データ サンプルが関連するさまざまな方法を把握する必要があります。
対比損失 (関連サンプルの客観的なマッチング) は、自己教師あり学習からマルチモーダル学習までの手法の基礎となります。
ただし、対比損失は、埋め込み空間内でサンプルがどのように関係するかを示すために類似度グラフを変更するものとしてより広く見ることができます。
このビューは、対比学習の欠点を明らかにします。1 つのサンプルのみが関連する陽性サンプルであるため、類似度グラフはバイナリです。
重要なのは、\textit{cross} サンプル間の類似性が無視されることです。
この観察に基づいて、サンプルが他のサンプルとどのように関係するかを明示的にエンコードするために、標準的なコントラスト損失を修正します。
$\mathbb{X}$-Sample Contrastive と呼ばれるこの新しい目標を実験し、クラスまたはテキスト キャプションの説明の類似性に基づいて視覚モデルをトレーニングします。
私たちの調査は、100 万サンプルの ImageNet-1k、300 万サンプルの CC3M、および 1,200 万サンプルの CC12M の 3 つのスケールに及びます。
私たちの目的によって学習された表現は、さまざまなタスクにわたって同じデータでトレーニングされた対照的な自己教師ありモデルと視覚言語モデルの両方を上回ります。
CC12M でトレーニングすると、ImageNet と ImageNet Real の両方で CLIP のパフォーマンスを $0.6\%$ 上回りました。
私たちの目標は、低データ領域で特にうまく機能するようで、CC3M でトレーニングした場合、ImageNet では $16.8\%$、ImageNet Real では $18.1\%$ の CLIP に対する利益が得られました。
最後に、私たちの目的は、ImageNet9 の CLIP よりも $3.3$ ~ $5.6$\% の利益を得て、オブジェクトをその属性や背景から分離する表現を学習することをモデルに奨励するようです。
提案されたソリューションが、基礎モデルにおけるサンプルの関係を理解するためのより充実した学習目標の開発に向けた小さな一歩となることを願っています。

要約(オリジナル)

Learning good representations involves capturing the diverse ways in which data samples relate. Contrastive loss – an objective matching related samples – underlies methods from self-supervised to multimodal learning. Contrastive losses, however, can be viewed more broadly as modifying a similarity graph to indicate how samples should relate in the embedding space. This view reveals a shortcoming in contrastive learning: the similarity graph is binary, as only one sample is the related positive sample. Crucially, similarities \textit{across} samples are ignored. Based on this observation, we revise the standard contrastive loss to explicitly encode how a sample relates to others. We experiment with this new objective, called $\mathbb{X}$-Sample Contrastive, to train vision models based on similarities in class or text caption descriptions. Our study spans three scales: ImageNet-1k with 1 million, CC3M with 3 million, and CC12M with 12 million samples. The representations learned via our objective outperform both contrastive self-supervised and vision-language models trained on the same data across a range of tasks. When training on CC12M, we outperform CLIP by $0.6\%$ on both ImageNet and ImageNet Real. Our objective appears to work particularly well in lower-data regimes, with gains over CLIP of $16.8\%$ on ImageNet and $18.1\%$ on ImageNet Real when training with CC3M. Finally, our objective seems to encourage the model to learn representations that separate objects from their attributes and backgrounds, with gains of $3.3$-$5.6$\% over CLIP on ImageNet9. We hope the proposed solution takes a small step towards developing richer learning objectives for understanding sample relations in foundation models.

arxiv情報

著者 Vlad Sobal,Mark Ibrahim,Randall Balestriero,Vivien Cabannes,Diane Bouchacourt,Pietro Astolfi,Kyunghyun Cho,Yann LeCun
発行日 2024-07-25 15:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク