Asymmetric Patch Sampling for Contrastive Learning

要約

正対間の非対称な外観は、対比学習における表現劣化のリスクを効果的に低減する。しかし、既存の手法では、正対間の外観の類似性がまだ大量に存在し、さらなる表現の改善を阻害している。本論文では、コントラスト学習のための新しい非対称パッチサンプリング戦略を提案し、より良い表現のために外観の非対称性をさらに高めることを目指す。具体的には、与えられた画像に対して二重のパッチサンプリング戦略を適用し、非対称な正対を得ることができる。まず、スパースパッチサンプリングは、画像の空間的な冗長性を減らし、より非対称なビューを可能にする、最初のビューを得るために実施されます。第二に、選択的なパッチサンプリングにより、第一のビューに対して大きな外観の不一致を持つ別のビューを構築することが提案される。正対する画像間の外観の類似性は評価できないため、学習済みモデルは、低レベルの類似性ではなく、意味的な類似性を捉えることが奨励される。実験の結果、提案手法はImageNet-1KとCIFARの両データセットにおいて、既存の自己教師付き手法を大幅に上回ることが示された(例えば、CIFAR100では2.5%の精度向上)。さらに、本手法は、COCOの下流タスクである物体検出とインスタンス分割において、最先端の性能を達成しています。また、他の自己教師付き手法と比較して、本手法は学習時のメモリと計算の両方でより効率的です。ソースコードは https://github.com/visresearch/aps で公開されています。

要約(オリジナル)

Asymmetric appearance between positive pair effectively reduces the risk of representation degradation in contrastive learning. However, there are still a mass of appearance similarities between positive pair constructed by the existing methods, which inhibits the further representation improvement. In this paper, we propose a novel asymmetric patch sampling strategy for contrastive learning, to further boost the appearance asymmetry for better representations. Specifically, dual patch sampling strategies are applied to the given image, to obtain asymmetric positive pairs. First, sparse patch sampling is conducted to obtain the first view, which reduces spatial redundancy of image and allows a more asymmetric view. Second, a selective patch sampling is proposed to construct another view with large appearance discrepancy relative to the first one. Due to the inappreciable appearance similarity between positive pair, the trained model is encouraged to capture the similarity on semantics, instead of low-level ones. Experimental results demonstrate that our proposed method significantly outperforms the existing self-supervised methods on both ImageNet-1K and CIFAR dataset, e.g., 2.5% finetune accuracy improvement on CIFAR100. Furthermore, our method achieves state-of-the-art performance on downstream tasks, object detection and instance segmentation on COCO.Additionally, compared to other self-supervised methods, our method is more efficient on both memory and computation during training. The source code is available at https://github.com/visresearch/aps.

arxiv情報

著者 Chengchao Shen,Jianzhong Chen,Shu Wang,Hulin Kuang,Jin Liu,Jianxin Wang
発行日 2023-06-05 13:10:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク