RegionCL: Can Simple Region Swapping Contribute to Contrastive Learning?

要約

自己教師ありメソッド (SSL) は、クロッピングが一般的な拡張手法である 2 つの拡張ビュー間の相互情報を最大化することにより、大きな成功を収めています。
トリミングされた領域は正のペアを構築するために広く使用されていますが、トリミング後の左側の領域は既存の方法ではめったに調査されていませんが、それらは一緒になって同じ画像インスタンスを構成し、両方がカテゴリの説明に貢献しています。
この論文では、クロッピングにおける両方の領域の重要性を完全な観点から実証し、Region Contrastive Learning (RegionCL) と呼ばれるシンプルで効果的な口実タスクを提案する最初の試みを行います。
具体的には、2 つの異なる画像が与えられた場合、各画像から同じサイズの領域 (貼り付けビューと呼ばれる) をランダムにトリミングし、それらを交換して、左側の領域 (キャンバス ビューと呼ばれる) と一緒に 2 つの新しい画像をそれぞれ構成します。
次に、次の単純な基準に従って、対照的なペアを効率的に構築できます。つまり、各ビューは、(1) 同じ元の画像から拡張されたビューで肯定的であり、(2) 他の画像から拡張されたビューで否定的です。
一般的な SSL メソッドにわずかな変更を加えることで、RegionCL はこれらの豊富なペアを活用し、モデルが領域の機能をキャンバス ビューと貼り付けビューの両方から区別できるようにすることで、より優れた視覚的表現を学習します。
ImageNet、MS COCO、および Cityscapes での実験では、RegionCL が MoCo v2、DenseCL、および SimSiam を大幅に改善し、分類、検出、およびセグメンテーション タスクで最先端のパフォーマンスを達成することが実証されています。
コードは https://github.com/Annbless/RegionCL.git で入手できます。

要約(オリジナル)

Self-supervised methods (SSL) have achieved significant success via maximizing the mutual information between two augmented views, where cropping is a popular augmentation technique. Cropped regions are widely used to construct positive pairs, while the left regions after cropping have rarely been explored in existing methods, although they together constitute the same image instance and both contribute to the description of the category. In this paper, we make the first attempt to demonstrate the importance of both regions in cropping from a complete perspective and propose a simple yet effective pretext task called Region Contrastive Learning (RegionCL). Specifically, given two different images, we randomly crop a region (called the paste view) from each image with the same size and swap them to compose two new images together with the left regions (called the canvas view), respectively. Then, contrastive pairs can be efficiently constructed according to the following simple criteria, i.e., each view is (1) positive with views augmented from the same original image and (2) negative with views augmented from other images. With minor modifications to popular SSL methods, RegionCL exploits those abundant pairs and helps the model distinguish the regions features from both canvas and paste views, therefore learning better visual representations. Experiments on ImageNet, MS COCO, and Cityscapes demonstrate that RegionCL improves MoCo v2, DenseCL, and SimSiam by large margins and achieves state-of-the-art performance on classification, detection, and segmentation tasks. The code will be available at https://github.com/Annbless/RegionCL.git.

arxiv情報

著者 Yufei Xu,Qiming Zhang,Jing Zhang,Dacheng Tao
発行日 2022-11-10 09:03:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク