Siamese Prototypical Contrastive Learning

要約

Contrastive Self-supervised Learning (CSL) は、教師なしアプローチで大量のデータから意味のある視覚的表現を学習する実用的なソリューションです。
通常の CSL は、ニューラル ネットワークから抽出された特徴を特定のトポロジ構造に埋め込みます。
トレーニングの進行中、対照的な損失により、同じ入力の異なるビューが一緒に描画され、異なる入力からの埋め込みが分離されます。
CSL の欠点の 1 つは、理想的にバインドされたより良い相互情報を提供するために、損失項が多数の負のサンプルを必要とすることです。
ただし、実行バッチサイズを大きくしてネガティブサンプルの数を増やすと、偽陰性の影響も大きくなります。意味的に類似したサンプルがアンカーから離れてプッシュされるため、下流のパフォーマンスが低下します。
この論文では、シンプルだが効果的な対照学習フレームワークを導入することで、この問題に取り組みます。
重要な洞察は、プロトタイプ間の機能間の距離を広げながら、シャム スタイルのメトリック損失を使用してプロトタイプ内の機能を一致させることです。
さまざまなベンチマークで大規模な実験を行い、その結果、視覚的表現の品質を向上させる方法の有効性が実証されました。
具体的には、線形プローブを使用した教師なしの事前トレーニング済み ResNet-50 は、ImageNet-1K データセットで完全に教師ありのトレーニング済みバージョンよりも優れています。

要約(オリジナル)

Contrastive Self-supervised Learning (CSL) is a practical solution that learns meaningful visual representations from massive data in an unsupervised approach. The ordinary CSL embeds the features extracted from neural networks onto specific topological structures. During the training progress, the contrastive loss draws the different views of the same input together while pushing the embeddings from different inputs apart. One of the drawbacks of CSL is that the loss term requires a large number of negative samples to provide better mutual information bound ideally. However, increasing the number of negative samples by larger running batch size also enhances the effects of false negatives: semantically similar samples are pushed apart from the anchor, hence downgrading downstream performance. In this paper, we tackle this problem by introducing a simple but effective contrastive learning framework. The key insight is to employ siamese-style metric loss to match intra-prototype features, while increasing the distance between inter-prototype features. We conduct extensive experiments on various benchmarks where the results demonstrate the effectiveness of our method on improving the quality of visual representations. Specifically, our unsupervised pre-trained ResNet-50 with a linear probe, out-performs the fully-supervised trained version on the ImageNet-1K dataset.

arxiv情報

著者 Shentong Mo,Zhun Sun,Chao Li
発行日 2022-08-18 13:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク