Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture

要約

【タイトル】
幾何学的変換に敏感なアーキテクチャによる非オブジェクト中心画像からの自己教師あり学習

【要約】
・自己教師あり学習において、オブジェクト中心の画像(例えばImageNet)を前提とした手法が多い
 - これは幾何学的変換に対して不変性を学習するため
・しかし、画像がオブジェクト中心でない場合、ランダムクロップやマルチクロップなどの幾何学的変換によって意味合いが大幅に変化する
・さらに、モデルが位置情報を捉えることにも苦戦することがある
・そのため、本研究では、4方向回転、ランダムクロップ、マルチクロップなどの幾何学的変換に敏感な特徴を学習するGeometric Transformation Sensitive Architectureを提案
・我々の手法では、学生が敏感な特徴を学習するため、重複領域全体ではなく、重複領域の類似度を増やし、ターゲット特徴マップに回転を適用することで、パッチの対応損失を使用して長期的な依存関係をキャプチャしている
・オブジェクト中心でない画像を事前学習データとして使用した場合、本手法は他の幾何学的変換不変な表現を学習する手法と比較して、改善されたパフォーマンスを示す
・我々は、6.1 $Acc$、0.6 $mIoU$、0.4 $AP^b$、0.1 $AP^m$の改善を持ち、画像分類、意味セグメンテーション、検出、インスタンスセグメンテーションなどのタスクでDINOベースラインを上回った

要約(オリジナル)

Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning invariant representations from geometric transformations. However, when images are not object-centric, the semantics of the image can be significantly altered due to geometric transformations such as random crops and multi-crops. Furthermore, the model may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture that learns features sensitive to geometric transformation like four-fold rotation, random crop, and multi-crop. Our method encourages the student to learn sensitive features by increasing the similarity between overlapping regions not entire views. and applying rotations to the target feature map. Additionally, we use a patch correspondence loss to capture long-term dependencies. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that learn geometric transformation-invariant representations. We surpass DINO baseline in tasks such as image classification, semantic segmentation, detection, and instance segmentation with improvements of 6.1 $Acc$, 0.6 $mIoU$, 0.4 $AP^b$, and 0.1 $AP^m$.

arxiv情報

著者 Taeho Kim Jong-Min Lee
発行日 2023-04-17 06:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク