要約
タイトル:ジオメトリック変換感度アーキテクチャを用いた非対象セントリック画像からの自己教師あり学習
要約:
– 自己教師あり学習手法は、幾何学的変換によって不変な特徴を学習するために、単一の対象セントリック画像(例えば、ImageNet画像)に依存することが多い。
– しかし、画像が対象セントリックではない場合、クロップによって画像の意味が大幅に変化することがあるため、課題が生じる。
– さらに、モデルが幾何学的変換に対して無感覚になるにつれ、位置情報を捕捉することが困難になる可能性がある。
– このような理由から、幾何学的変換に感度を持つジオメトリック変換感度アーキテクチャを提案する。
– 提案手法では、4回の回転、ランダムクロップ、およびマルチクロップに特化し、生徒が回転を予測し、教師の特徴マップをプーリングして回転させることによって感度を持つようにする。
– さらに、パッチ対応損失を使用して、似た特徴を持つパッチ間の対応を促し、より適切な方法で長期的な依存関係を捕捉できるようにする。
– このアプローチは、マルチクロップに対する無感覚性を学習することによってローカルからグローバルな対応を促進することによる長期的な依存関係の捕捉よりも適切な方法で長期的な依存関係を捕捉できるようになっている。
– この手法は、他の幾何学的変換に対して無感覚なモデルをトレーニングする手法と比較して、非対象セントリック画像を事前学習データとして使用する際に改善されたパフォーマンスを示している。
– この手法は、画像分類、意味的セグメンテーション、検出、およびインスタンスセグメンテーションのタスクにおいてDINOベースラインを上回り、4.9 $Top-1 Acc$、3.3 $mIoU$、3.4 $AP^b$および2.7$AP^m$の改善を達成している。
– コードと事前学習済みモデルは、\url{https://github.com/bok3948/GTSA}で公開されている。
要約(オリジナル)
Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning invariant features from geometric transformations. However, when images are not object-centric, the semantics of the image can be significantly altered due to cropping. Furthermore, as the model becomes insensitive to geometric transformations, it may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture designed to be sensitive to geometric transformations, specifically focusing on four-fold rotation, random crop, and multi-crop. Our method encourages the student to be sensitive by predicting rotation and using targets that vary with those transformations through pooling and rotating the teacher feature map. Additionally, we use patch correspondence loss to encourage correspondence between patches with similar features. This approach allows us to capture long-term dependencies in a more appropriate way than capturing long-term dependencies by encouraging local-to-global correspondence, which occurs when learning to be insensitive to multi-crop. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that train the model to be insensitive to geometric transformation. We surpass DINO[\citet{caron2021emerging}] baseline in tasks including image classification, semantic segmentation, detection, and instance segmentation with improvements of 4.9 $Top-1 Acc$, 3.3 $mIoU$, 3.4 $AP^b$, and 2.7 $AP^m$. Code and pretrained models are publicly available at: \url{https://github.com/bok3948/GTSA}
arxiv情報
著者 | Taeho Kim,Jong-Min Lee |
発行日 | 2023-05-10 07:37:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI