Inter-Instance Similarity Modeling for Contrastive Learning

要約

既存の対比学習手法は、自己教師あり学習の口実タスクとしてワンホット インスタンスの識別を広く採用していますが、これにより必然的に自然画像間のインスタンス間の豊富な類似性が無視され、潜在的な表現の劣化につながります。
この論文では、画像間のインスタンス間の類似性をモデル化するための、Vision Transformer (ViT) の対比学習のための新しい画像混合手法 PatchMix を提案します。
ViT の性質に従って、ミニバッチからの複数の画像をパッチ レベルでランダムに混合して、ViT 用の混合画像パッチ シーケンスを構築します。
既存のサンプル混合方法と比較して、当社の PatchMix は 3 つ以上の画像を柔軟かつ効率的に混合し、自然画像間のより複雑な類似関係をシミュレートできます。
このようにして、私たちの対照的なフレームワークは、対照的な目的と現実の真実の間のギャップを大幅に減らすことができます。
実験結果は、我々の提案手法が ImageNet-1K と CIFAR データセットの両方で以前の最先端技術を大幅に上回っていることを示しています。たとえば、ImageNet-1K では線形精度が 3.0% 向上し、CIFAR100 では kNN 精度が 8.7% 向上しました。
さらに、私たちの方法は、COCO データセット上のダウンストリームタスク、オブジェクト検出、インスタンスセグメンテーションにおいて最高の転送パフォーマンスを達成します。
コードは https://github.com/visresearch/patchmix で入手できます。

要約(オリジナル)

The existing contrastive learning methods widely adopt one-hot instance discrimination as pretext task for self-supervised learning, which inevitably neglects rich inter-instance similarities among natural images, then leading to potential representation degeneration. In this paper, we propose a novel image mix method, PatchMix, for contrastive learning in Vision Transformer (ViT), to model inter-instance similarities among images. Following the nature of ViT, we randomly mix multiple images from mini-batch in patch level to construct mixed image patch sequences for ViT. Compared to the existing sample mix methods, our PatchMix can flexibly and efficiently mix more than two images and simulate more complicated similarity relations among natural images. In this manner, our contrastive framework can significantly reduce the gap between contrastive objective and ground truth in reality. Experimental results demonstrate that our proposed method significantly outperforms the previous state-of-the-art on both ImageNet-1K and CIFAR datasets, e.g., 3.0% linear accuracy improvement on ImageNet-1K and 8.7% kNN accuracy improvement on CIFAR100. Moreover, our method achieves the leading transfer performance on downstream tasks, object detection and instance segmentation on COCO dataset. The code is available at https://github.com/visresearch/patchmix

arxiv情報

著者 Chengchao Shen,Dawei Liu,Hao Tang,Zhe Qu,Jianxin Wang
発行日 2023-06-29 12:14:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク