Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture

要約

タイトル:幾何学的変換感覚アーキテクチャを用いた非オブジェクト中心的画像からの自己教師あり学習

要約:

– 自己教師あり学習の多くの不変性ベースの手法は、幾何学的変換から不変な表現を学習するために、単一のオブジェクト中心の画像(例:ImageNet画像)を前処理として使用する。
– しかしながら、画像がオブジェクト中心でない場合、クロッピングによって画像の意味は大幅に変化する可能性がある。
– さらに、モデルが幾何学的に不変な特徴を学習すると、位置情報を捉えることが難しくなる可能性がある。
– このため、幾何学的変換に感度のある特徴を学習する幾何学的変換感覚アーキテクチャを提案する。
– 我々の方法は、教師のフィーチャーマップのプーリングと回転、回転の予測によって、その変換に感度のあるターゲットを使用して学生に感度のある特徴を学習させるように促す。
– さらに、多重クロップに対する無感覚トレーニングが長期の依存関係を捉えることができるため、パッチ対応損失を使用して、長期の依存関係を捉えながらモデルを感度良くトレーニングする。
– 我々のアプローチは、ジオメトリ変換に感度がない表現を学習する他の手法に比べて、非オブジェクト中心的画像を前処理データとして使用する場合に改善された性能を示す。
– イメージ分類、意味的セグメンテーション、検出、インスタンスセグメンテーションなどのタスクにおいて、DINOベースラインを上回り、6.1 Ac、3.3 mIoU、3.4 $AP^b$、2.7 $AP^m$の改善を実現している。
– コードと事前学習モデルは公開されている。

要約(オリジナル)

Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning invariant representations from geometric transformations. However, when images are not object-centric, the semantics of the image can be significantly altered due to cropping. Furthermore, as the model learns geometrically insensitive features, it may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture that learns features sensitive to geometric transformations, specifically four-fold rotation, random crop, and multi-crop. Our method encourages the student to learn sensitive features by using targets that are sensitive to those transforms via pooling and rotating of the teacher feature map and predicting rotation. Additionally, since training insensitively to multi-crop can capture long-term dependencies, we use patch correspondence loss to train the model sensitively while capturing long-term dependencies. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that learn geometric transformation-insensitive representations. We surpass the DINO[\citet{caron2021emerging}] baseline in tasks including image classification, semantic segmentation, detection, and instance segmentation with improvements of 6.1 $Acc$, 3.3 $mIoU$, 3.4 $AP^b$, and 2.7 $AP^m$. Code and pretrained models are publicly available at:

arxiv情報

著者 Taeho Kim
発行日 2023-04-27 04:05:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク