Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination methods

要約

インスタンス識別に基づく自己教師あり学習アルゴリズム (SSL) は、有望な結果を示しており、一部の下流タスクでは競合する、または教師あり学習アルゴリズムを上回るパフォーマンスを示しています。
このようなアプローチでは、データ拡張を利用して同じインスタンスの 2 つのビュー (つまり、正のペア) を作成し、自明な解決策に陥ることなく、これらのビューを埋め込み空間内でより近くに引き寄せることで、モデルが適切な表現を学習するように促します。
ただし、データ拡張は正のペアの表現に制限があり、対照学習中のインスタンス間の反発プロセスにより、類似したカテゴリを持つインスタンスの重要な特徴が破棄される可能性があります。
この問題に対処するために、同様の意味論的内容を持つ画像を識別し、それらを肯定的なインスタンスとして扱うアプローチを提案します。これにより、表現学習中に重要な特徴が破棄される可能性が減り、潜在表現の豊かさが向上します。
私たちのアプローチは汎用的なもので、MoCo や SimSiam などの自己監視型インスタンス識別フレームワークと併用できます。
私たちの方法を評価するために、異なるインスタンス識別 SSL アプローチを使用して、ImageNet、STL-10、および CIFAR-10 の 3 つのベンチマーク データセットで実験を実行します。
実験結果は、私たちのアプローチが 3 つのデータセットすべてにわたってベースライン手法よりも一貫して優れていることを示しています。
たとえば、800 エポックにわたる線形評価プロトコルの下で、ImageNet 上でバニラ MoCo-v2 を 4.1% 改善しました。
また、半教師あり学習、下流タスクでの転移学習、物体検出の結果も報告します。

要約(オリジナル)

Self-supervised learning algorithms (SSL) based on instance discrimination have shown promising results, performing competitively or even outperforming supervised learning counterparts in some downstream tasks. Such approaches employ data augmentation to create two views of the same instance (i.e., positive pairs) and encourage the model to learn good representations by attracting these views closer in the embedding space without collapsing to the trivial solution. However, data augmentation is limited in representing positive pairs, and the repulsion process between the instances during contrastive learning may discard important features for instances that have similar categories. To address this issue, we propose an approach to identify those images with similar semantic content and treat them as positive instances, thereby reducing the chance of discarding important features during representation learning and increasing the richness of the latent representation. Our approach is generic and could work with any self-supervised instance discrimination frameworks such as MoCo and SimSiam. To evaluate our method, we run experiments on three benchmark datasets: ImageNet, STL-10 and CIFAR-10 with different instance discrimination SSL approaches. The experimental results show that our approach consistently outperforms the baseline methods across all three datasets; for instance, we improve upon the vanilla MoCo-v2 by 4.1% on ImageNet under a linear evaluation protocol over 800 epochs. We also report results on semi-supervised learning, transfer learning on downstream tasks, and object detection.

arxiv情報

著者 Mohammad Alkhalefi,Georgios Leontidis,Mingjun Zhong
発行日 2024-04-25 15:27:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク