Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination Methods

要約

インスタンスの識別に基づいた自己教師の学習アルゴリズム(SSL)は、いくつかのダウンストリームタスクで競争力のあるまたはパフォーマンスの監督された学習カウンターパートを競争的にまたはパフォーマンスすることさえも実行している有望な結果を示しています。
このようなアプローチでは、データの増強を使用して、同じインスタンスの2つのビュー(つまり、正のペア)を作成し、些細なソリューションに崩壊することなく、埋め込み空間でこれらのビューをより近くに引き付けることにより、モデルが適切な表現を学習することを奨励します。
ただし、データの増強は正のペアを表す際に制限されており、対照学習中のインスタンス間の反発プロセスは、同様のカテゴリを持つインスタンスの重要な機能を破棄する可能性があります。
この問題に対処するために、これらの画像を類似したセマンティックコンテンツを識別し、それらをポジティブなインスタンスとして扱うアプローチを提案し、それにより、表現学習中に重要な特徴を破棄し、潜在的な表現の豊かさを高める可能性を減らします。
私たちのアプローチは一般的であり、MocoやSimsiamなどの自己監視されたインスタンス差別フレームワークで動作する可能性があります。
この方法を評価するために、Imagenet、STL-10、CIFAR-10の3つのベンチマークデータセットで実験を実行し、異なるインスタンス識別SSLアプローチを使用します。
実験結果は、私たちのアプローチが3つのデータセットすべてにわたってベースラインメソッドを常に上回ることを示しています。
たとえば、800エポックを超える線形評価プロトコルの下で、イメージネットでバニラモコ-V2を4.1%改善します。
また、半教師の学習、下流タスクの転送学習、およびオブジェクト検出に関する結果を報告します。

要約(オリジナル)

Self-supervised learning algorithms (SSL) based on instance discrimination have shown promising results, performing competitively or even outperforming supervised learning counterparts in some downstream tasks. Such approaches employ data augmentation to create two views of the same instance (i.e., positive pairs) and encourage the model to learn good representations by attracting these views closer in the embedding space without collapsing to the trivial solution. However, data augmentation is limited in representing positive pairs, and the repulsion process between the instances during contrastive learning may discard important features for instances that have similar categories. To address this issue, we propose an approach to identify those images with similar semantic content and treat them as positive instances, thereby reducing the chance of discarding important features during representation learning and increasing the richness of the latent representation. Our approach is generic and could work with any self-supervised instance discrimination frameworks such as MoCo and SimSiam. To evaluate our method, we run experiments on three benchmark datasets: ImageNet, STL-10 and CIFAR-10 with different instance discrimination SSL approaches. The experimental results show that our approach consistently outperforms the baseline methods across all three datasets; for instance, we improve upon the vanilla MoCo-v2 by 4.1% on ImageNet under a linear evaluation protocol over 800 epochs. We also report results on semi-supervised learning, transfer learning on downstream tasks, and object detection.

arxiv情報

著者 Mohammad Alkhalefi,Georgios Leontidis,Mingjun Zhong
発行日 2025-04-30 09:47:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク