Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture

要約

タイトル:ジオメトリック変換に敏感なアーキテクチャを使用したオブジェクト非中心画像からの自己教師あり学習

要約:

– 自己教師あり方法の多くは、幾何学的変換から固有のイメージ(例:ImageNetイメージ)に依存しています。
– しかし、画像がオブジェクト非中心である場合、切り抜きによって画像の意味が大きく変わることがあります。
– また、モデルが幾何学的変換に対して不感になるにつれて、場所の情報を捕捉するのが困難になることがあります。
– そこで、ジオメトリック変換に敏感なアーキテクチャを提唱し、ジオメトリック変換に敏感な機能を学習するように設計されています。
– このアプローチは、4回の回転、ランダムな切り抜き、およびマルチ切り抜きに焦点を当てています。
– 私たちの方法は、教師の特長マップをプールし、回転させ、回転を予測することによって、変換に敏感なターゲットを使用して、学習者が敏感になるように促します。
– さらに、マルチ切り抜きに対して不感にトレーニングすることは、ローカルからグローバルな対応を促進し、モデルが長期的な依存関係を捕捉できるようになります。
– パッチの対応損失を使用して、画像のビュー間の対応関係を強制するのではなく、類似の特徴を持つパッチ間の対応関係を促進することで、長期的な依存関係をより適切に捕捉することができます。
– 私たちのアプローチは、幾何学的変換に不感性を学習する他の方法と比較して、オブジェクト非中心の画像をTraningデータとして使用した場合に改善したパフォーマンスを示しています。
– 私たちは、画像分類、意味的セグメンテーション、検出、インスタンスセグメンテーションなどのタスクでDINOベースラインを上回り、4.9 $Top-1 Acc$、3.3 $mIoU$、3.4 $AP^b$、2.7 $AP^m$の改善を示しました。
– コードと学習済みモデルはhttps://github.com/bok3948/GTSAで公開されています。

要約(オリジナル)

Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning invariant representations from geometric transformations. However, when images are not object-centric, the semantics of the image can be significantly altered due to cropping. Furthermore, as the model becomes insensitive to geometric transformations, it may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture designed to learn features that are sensitive to geometric transformations, specifically focusing on four-fold rotation, random crop, and multi-crop. Our method encourages the student to be sensitive by using targets that are sensitive to those transforms via pooling and rotating of the teacher feature map and predicting rotation. Additionally, as training insensitively to multi-crop encourages local-to-global correspondence, the model can capture long-term dependencies. We use patch correspondence loss to encourage correspondence between patches with similar features, instead of enforcing correspondence between views of the image. This approach allows us to capture long-term dependencies in a more appropriate way. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that learn geometric transformation-insensitive representations. We surpass the DINO baseline in tasks including image classification, semantic segmentation, detection, and instance segmentation with improvements of 4.9 $Top-1 Acc$, 3.3 $mIoU$, 3.4 $AP^b$, and 2.7 $AP^m$. Code and pretrained models are publicly available at: https://github.com/bok3948/GTSA

arxiv情報

著者 Taeho Kim,Jong-Min Lee
発行日 2023-05-09 03:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク