EMC$^2$: Efficient MCMC Negative Sampling for Contrastive Learning with Global Convergence

要約

対比学習における主な課題は、データのより適切なエンコードを学習するために、大規模なサンプル セットから負のサンプルを生成して正のサンプルと対比させることです。
これらの負のサンプルは、多くの場合、トレーニング プロセス中に動的に更新されるソフトマックス分布に従います。
ただし、分配関数を計算する際の計算コストが高いため、この分布からのサンプリングは自明ではありません。
この論文では、対照学習 (EMC$^2$) のための効率的なマルコフ連鎖モンテカルロ ネガティブ サンプリング法を提案します。
我々は、SogCLR で導入されたグローバル対照学習損失に従い、適応メトロポリス・ヘイスティングスサブルーチンを利用して、最適化中にオンライン方式で硬度を考慮したネガティブサンプルを生成する EMC$^2$ を提案します。
EMC$^2$ が $T$ 反復で大域対照損失の $\mathcal{O}(1/\sqrt{T})$ 定常点を見つけることを証明します。
以前の研究と比較すると、EMC$^2$ は、バッチ サイズの選択に関係なく (定常性への) グローバルな収束を示し、同時に低い計算コストとメモリ コストを示す最初のアルゴリズムです。
数値実験により、EMC$^2$ は小規模バッチ トレーニングで効果的であり、ベースライン アルゴリズムと同等以上のパフォーマンスを達成できることが検証されています。
STL-10 および Imagenet-100 での画像エンコーダーの事前トレーニングの結果を報告します。

要約(オリジナル)

A key challenge in contrastive learning is to generate negative samples from a large sample set to contrast with positive samples, for learning better encoding of the data. These negative samples often follow a softmax distribution which are dynamically updated during the training process. However, sampling from this distribution is non-trivial due to the high computational costs in computing the partition function. In this paper, we propose an Efficient Markov Chain Monte Carlo negative sampling method for Contrastive learning (EMC$^2$). We follow the global contrastive learning loss as introduced in SogCLR, and propose EMC$^2$ which utilizes an adaptive Metropolis-Hastings subroutine to generate hardness-aware negative samples in an online fashion during the optimization. We prove that EMC$^2$ finds an $\mathcal{O}(1/\sqrt{T})$-stationary point of the global contrastive loss in $T$ iterations. Compared to prior works, EMC$^2$ is the first algorithm that exhibits global convergence (to stationarity) regardless of the choice of batch size while exhibiting low computation and memory cost. Numerical experiments validate that EMC$^2$ is effective with small batch training and achieves comparable or better performance than baseline algorithms. We report the results for pre-training image encoders on STL-10 and Imagenet-100.

arxiv情報

著者 Chung-Yiu Yau,Hoi-To Wai,Parameswaran Raman,Soumajyoti Sarkar,Mingyi Hong
発行日 2024-04-16 13:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, math.OC パーマリンク