Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach

要約

自己教師付き視覚表現学習は、伝統的に画像レベルのインスタンス識別に焦点を当てている。我々の研究は、これらの方法論にパッチレベルの識別を統合することで、革新的できめ細かい次元を導入している。この統合により、局所的な視覚的特徴と大域的な視覚的特徴を同時に分析することが可能となり、学習された表現の質が向上する。最初に、元の画像に空間的な補強を施す。その後、我々は特徴的なフォトメトリック・パッチレベルの補強を採用し、各パッチは同じビュー内の他のパッチから独立して、個別に補強される。このアプローチにより、各セグメントに明確なカラーバリエーションを持つ多様なトレーニングデータセットが生成される。次に、拡張された画像は、Vision Transformer (ViT)をバックボーンとして利用した自己蒸留学習フレームワークを通して処理される。提案手法は、マクロな視点からミクロな視点までの詳細を捉えるために、画像とパッチの両方のレベルにわたる表現距離を最小化する。この目的のために、拡張されたビュー全体にわたって対応するパッチを見つけるための、シンプルかつ効果的なパッチマッチングアルゴリズムを提示する。パッチマッチングアルゴリズムの効率的な構造のおかげで、本手法は類似のアプローチと比較して計算量を削減する。その結果、大きな計算量を追加することなく、モデルの高度な理解を達成する。我々は、Cifar10、ImageNet-100、ImageNet-1Kなどの様々なスケールのデータセットに対して、本手法を広範囲に事前訓練した。画像分類や、コピー検出や画像検索などの下流タスクにおいて、最先端の教師あり表現学習手法よりも優れた性能を示す。本手法の実装はGitHubで公開されている。

要約(オリジナル)

Self-supervised visual representation learning traditionally focuses on image-level instance discrimination. Our study introduces an innovative, fine-grained dimension by integrating patch-level discrimination into these methodologies. This integration allows for the simultaneous analysis of local and global visual features, thereby enriching the quality of the learned representations. Initially, the original images undergo spatial augmentation. Subsequently, we employ a distinctive photometric patch-level augmentation, where each patch is individually augmented, independent from other patches within the same view. This approach generates a diverse training dataset with distinct color variations in each segment. The augmented images are then processed through a self-distillation learning framework, utilizing the Vision Transformer (ViT) as its backbone. The proposed method minimizes the representation distances across both image and patch levels to capture details from macro to micro perspectives. To this end, we present a simple yet effective patch-matching algorithm to find the corresponding patches across the augmented views. Thanks to the efficient structure of the patch-matching algorithm, our method reduces computational complexity compared to similar approaches. Consequently, we achieve an advanced understanding of the model without adding significant computational requirements. We have extensively pretrained our method on datasets of varied scales, such as Cifar10, ImageNet-100, and ImageNet-1K. It demonstrates superior performance over state-of-the-art self-supervised representation learning methods in image classification and downstream tasks, such as copy detection and image retrieval. The implementation of our method is accessible on GitHub.

arxiv情報

著者 Ali Javidani,Mohammad Amin Sadeghi,Babak Nadjar Araabi
発行日 2024-06-03 13:02:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク