Semantics-Consistent Feature Search for Self-Supervised Visual Representation Learning

要約

対照的な自己教師あり学習では、弁別表現を学習する一般的な方法は、同じ画像のさまざまな拡張された「ビュー」を引き寄せ、他のすべての画像をさらに引き離すことであり、これは効果的であることが証明されています。
ただし、拡張手順中に異なる意味概念を含む望ましくないビューを構築することは避けられません。
これらの拡張を特徴空間で無差別に引き寄せると、表現の意味的一貫性が損なわれます。
この研究では、機能レベルの拡張を導入し、この悪影響を軽減するための新しいセマンティクス一貫性のある機能検索 (SCFS) メソッドを提案します。
SCFS の主なアイデアは、セマンティクスの一貫した機能を適応的に検索して、異なる拡張におけるセマンティクスの一貫した領域間のコントラストを強化することです。
したがって、トレーニングされたモデルは、意味のあるオブジェクト領域に焦点を当てることを学習し、セマンティック表現能力を向上させることができます。
さまざまなデータセットとタスクで実施された広範な実験は、SCFS が自己教師あり学習のパフォーマンスを効果的に改善し、さまざまなダウンストリーム タスクで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

In contrastive self-supervised learning, the common way to learn discriminative representation is to pull different augmented ‘views’ of the same image closer while pushing all other images further apart, which has been proven to be effective. However, it is unavoidable to construct undesirable views containing different semantic concepts during the augmentation procedure. It would damage the semantic consistency of representation to pull these augmentations closer in the feature space indiscriminately. In this study, we introduce feature-level augmentation and propose a novel semantics-consistent feature search (SCFS) method to mitigate this negative effect. The main idea of SCFS is to adaptively search semantics-consistent features to enhance the contrast between semantics-consistent regions in different augmentations. Thus, the trained model can learn to focus on meaningful object regions, improving the semantic representation ability. Extensive experiments conducted on different datasets and tasks demonstrate that SCFS effectively improves the performance of self-supervised learning and achieves state-of-the-art performance on different downstream tasks.

arxiv情報

著者 Kaiyou Song,Shan Zhang,Zihao An,Zimeng Luo,Tong Wang,Jin Xie
発行日 2022-12-13 11:13:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク