要約
自己教師あり学習 (SSL) は、さまざまなダウンストリーム ビジョン タスクで優れたパフォーマンスを発揮します。
インスタンス識別 (ID) とマスク イメージ モデリング (MIM) の 2 つのメインストリーム SSL フレームワークが提案されています。
ID は、特徴の崩壊を回避しながら、同じ画像の異なるビューからの表現をまとめます。
各画像内の局所構造をモデル化する必要がある空間感度がありません。
一方、MIM は、マスクされた画像を指定して元のコンテンツを再構築します。
代わりに、意味的に類似したビューを近くの表現に投影する必要があるため、セマンティック アラインメントが適切ではありません。
このジレンマに対処するために、(1) 異なる画像ビューを強力な拡張と一致させることでセマンティック アラインメントを達成できることを観察します。
(2) 空間感度は、マスクされた画像を使用して密な表現を予測することで恩恵を受けることができます。
これらの分析に基づいて、同じ画像から異なる拡張を使用してマスクされた別のビューに基づいて、拡張ビューの密な表現を予測する Siamese Image Modeling (SiameseIM) を提案します。
SiameseIM は、2 つのブランチを持つシャム ネットワークを使用します。
オンライン ブランチは最初のビューをエンコードし、これら 2 つのビュー間の相対的な位置に従って 2 番目のビューの表現を予測します。
ターゲット ブランチは、2 番目のビューをエンコードすることによってターゲットを生成します。
SiameseIM は、ImageNet の微調整と線形プロービング、COCO と LVIS の検出、ADE20k セマンティック セグメンテーションなど、幅広いダウンストリーム タスクで ID と MIM の両方を凌駕できます。
改善は、少数のショット、ロングテール、および堅牢性に関係するシナリオでより重要です。
コードは https://github.com/fundamentalvision/Siamese-Image-Modeling でリリースされます。
要約(オリジナル)
Self-supervised learning (SSL) has delivered superior performance on a variety of downstream vision tasks. Two main-stream SSL frameworks have been proposed, i.e., Instance Discrimination (ID) and Masked Image Modeling (MIM). ID pulls together representations from different views of the same image, while avoiding feature collapse. It lacks spatial sensitivity, which requires modeling the local structure within each image. On the other hand, MIM reconstructs the original content given a masked image. It instead does not have good semantic alignment, which requires projecting semantically similar views into nearby representations. To address this dilemma, we observe that (1) semantic alignment can be achieved by matching different image views with strong augmentations; (2) spatial sensitivity can benefit from predicting dense representations with masked images. Driven by these analysis, we propose Siamese Image Modeling (SiameseIM), which predicts the dense representations of an augmented view, based on another masked view from the same image but with different augmentations. SiameseIM uses a Siamese network with two branches. The online branch encodes the first view, and predicts the second view’s representation according to the relative positions between these two views. The target branch produces the target by encoding the second view. SiameseIM can surpass both ID and MIM on a wide range of downstream tasks, including ImageNet finetuning and linear probing, COCO and LVIS detection, and ADE20k semantic segmentation. The improvement is more significant in few-shot, long-tail and robustness-concerned scenarios. Code shall be released at https://github.com/fundamentalvision/Siamese-Image-Modeling.
arxiv情報
著者 | Chenxin Tao,Xizhou Zhu,Weijie Su,Gao Huang,Bin Li,Jie Zhou,Yu Qiao,Xiaogang Wang,Jifeng Dai |
発行日 | 2022-11-16 14:45:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google