Delving into Inter-Image Invariance for Unsupervised Visual Representations

要約

対照学習は、最近、教師なし視覚表現学習において大きな可能性を示しています。
このトラックの既存の研究は、主に画像内不変性学習に焦点を当てています。
学習では、通常、豊富な画像内変換を使用して正のペアを構築し、対比損失を使用して一致を最大化します。
逆に、画像間の不変性のメリットは、あまり調査されていません。
画像間の不変性を利用する際の大きな障害の 1 つは、画像間の正のペアを確実に構築し、ペアの注釈が利用できないため、それらから効果的な監視をさらに引き出す方法が不明であることです。
この作業では、疑似ラベルの維持、サンプリング戦略、および決定境界設計の 3 つの主要な構成要素から学習する画像間の不変性の役割をよりよく理解するための包括的な実証的研究を提示します。
研究を容易にするために、教師なし画像内および画像間不変性学習の統合をサポートする統一された汎用フレームワークを導入します。
慎重に設計された比較と分析を通じて、複数の貴重な観察結果が明らかになりました。
2) セミハード ネガティブ サンプルは、ハード ネガティブ サンプルよりも信頼性が高く、偏りがありません。
3) 画像間の不変性学習には、より厳密でない決定境界の方が適しています。
得られたすべてのレシピを使用して、最終的なモデル、つまり InterCLR は、複数の標準ベンチマークで最先端の画像内不変性学習法よりも一貫した改善を示しています。
この作業が、効果的な教師なし画像間不変性学習を考案するための有用な経験になることを願っています。
コード: https://github.com/open-mmlab/mmselfsup.

要約(オリジナル)

Contrastive learning has recently shown immense potential in unsupervised visual representation learning. Existing studies in this track mainly focus on intra-image invariance learning. The learning typically uses rich intra-image transformations to construct positive pairs and then maximizes agreement using a contrastive loss. The merits of inter-image invariance, conversely, remain much less explored. One major obstacle to exploit inter-image invariance is that it is unclear how to reliably construct inter-image positive pairs, and further derive effective supervision from them since no pair annotations are available. In this work, we present a comprehensive empirical study to better understand the role of inter-image invariance learning from three main constituting components: pseudo-label maintenance, sampling strategy, and decision boundary design. To facilitate the study, we introduce a unified and generic framework that supports the integration of unsupervised intra- and inter-image invariance learning. Through carefully-designed comparisons and analysis, multiple valuable observations are revealed: 1) online labels converge faster and perform better than offline labels; 2) semi-hard negative samples are more reliable and unbiased than hard negative samples; 3) a less stringent decision boundary is more favorable for inter-image invariance learning. With all the obtained recipes, our final model, namely InterCLR, shows consistent improvements over state-of-the-art intra-image invariance learning methods on multiple standard benchmarks. We hope this work will provide useful experience for devising effective unsupervised inter-image invariance learning. Code: https://github.com/open-mmlab/mmselfsup.

arxiv情報

著者 Jiahao Xie,Xiaohang Zhan,Ziwei Liu,Yew Soon Ong,Chen Change Loy
発行日 2022-09-15 17:28:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク