Probabilistic Contrastive Learning for Long-Tailed Visual Recognition

要約

現実世界のデータでは、多数の少数カテゴリーに限られた数のサンプルが含まれる場合、長い尾分布が頻繁に現れます。
このような不均衡の問題は、主にバランスの取れたトレーニング セット用に設計された標準的な教師あり学習アルゴリズムのパフォーマンスを大幅に低下させます。
最近の調査では、教師あり対照学習がデータの不均衡を軽減する上で有望な可能性を示していることが明らかになりました。
ただし、教師あり対照学習のパフォーマンスは、固有の課題に悩まされています。すべてのカテゴリをカバーする対照ペアを構築するには、十分に大きなバッチのトレーニング データが必要ですが、クラス不均衡データのコンテキストではこの要件を満たすのが困難です。
この障害を克服するために、特徴空間内の各クラスからのサンプルのデータ分布を推定し、それに応じて対照的なペアをサンプリングする新しい確率的対比 (ProCo) 学習アルゴリズムを提案します。
実際、小さなバッチで特徴量を使用してすべてのクラスの分布を推定することは、特に不均衡なデータの場合には現実的ではありません。
私たちの重要なアイデアは、対比学習における正規化された特徴が単位空間上のフォン ミーゼス フィッシャー (vMF) 分布の混合に従うという合理的で単純な仮定を導入することであり、これにより 2 つの利点がもたらされます。
まず、最初のサンプル モーメントのみを使用して分布パラメーターを推定できます。これは、さまざまなバッチにわたってオンラインで効率的に計算できます。
第 2 に、推定された分布に基づいて、vMF 分布により、無限数のコントラスト ペアをサンプリングし、効率的な最適化のために予想されるコントラスト損失の閉じた形式を導き出すことができます。
私たちのコードは https://github.com/LeapLabTHU/ProCo で入手できます。

要約(オリジナル)

Long-tailed distributions frequently emerge in real-world data, where a large number of minority categories contain a limited number of samples. Such imbalance issue considerably impairs the performance of standard supervised learning algorithms, which are mainly designed for balanced training sets. Recent investigations have revealed that supervised contrastive learning exhibits promising potential in alleviating the data imbalance. However, the performance of supervised contrastive learning is plagued by an inherent challenge: it necessitates sufficiently large batches of training data to construct contrastive pairs that cover all categories, yet this requirement is difficult to meet in the context of class-imbalanced data. To overcome this obstacle, we propose a novel probabilistic contrastive (ProCo) learning algorithm that estimates the data distribution of the samples from each class in the feature space, and samples contrastive pairs accordingly. In fact, estimating the distributions of all classes using features in a small batch, particularly for imbalanced data, is not feasible. Our key idea is to introduce a reasonable and simple assumption that the normalized features in contrastive learning follow a mixture of von Mises-Fisher (vMF) distributions on unit space, which brings two-fold benefits. First, the distribution parameters can be estimated using only the first sample moment, which can be efficiently computed in an online manner across different batches. Second, based on the estimated distribution, the vMF distribution allows us to sample an infinite number of contrastive pairs and derive a closed form of the expected contrastive loss for efficient optimization. Our code is available at https://github.com/LeapLabTHU/ProCo.

arxiv情報

著者 Chaoqun Du,Yulin Wang,Shiji Song,Gao Huang
発行日 2024-03-14 16:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク