MixMask: Revisiting Masked Siamese Self-supervised Learning in Asymmetric Distance

要約

最近の自己教師あり学習の進歩により、マスク モデリングとシャム ネットワークが 1 つのフレームワークに統合され、2 つの手法の両方の利点が十分に活用されています。
ただし、マスクされた画像モデリングにおける以前の消去ベースのマスキング スキームは、もともとシャム ネットワーク用に設計されたものではありません。
既存のアプローチは、以前のシャム ネットワークからデフォルトの損失設計を単純に継承し、フレームワークでマスキング操作を採用した後の情報の損失と距離の変化を無視します。
この論文では、通常のマスキング方法で画像のランダムに消去された領域による情報の損失を防ぐために、MixMask と呼ばれる塗りつぶしベースのマスキング戦略を提案します。
さらに、ソフトディスタンスを使用した動的損失関数設計を導入して、統合アーキテクチャを適応させ、Masked Siamese ConvNets (MSCN) で変換された入力と目的の間の不一致を回避します。
動的損失距離は、提案された混合マスキング方式に従って計算されます。
CIFAR-100、Tiny-ImageNet、および ImageNet-1K のさまざまなデータセットに対して広範な実験が行われています。
結果は、提案されたフレームワークが、線形プロービング、半教師あり、{教師あり微調整} でより優れた精度を達成できることを示しています。これは、最先端の MSCN を大幅に上回っています。
また、オブジェクト検出とセグメンテーションの下流タスクでの優位性も示します。
ソース コードは https://github.com/LightnessOfBeing/MixMask で入手できます。

要約(オリジナル)

Recent advances in self-supervised learning integrate Masked Modeling and Siamese Networks into a single framework to fully reap the advantages of both the two techniques. However, previous erasing-based masking scheme in masked image modeling is not originally designed for siamese networks. Existing approaches simply inherit the default loss design from previous siamese networks, and ignore the information loss and distance change after employing masking operation in the frameworks. In this paper, we propose a filling-based masking strategy called MixMask to prevent information loss due to the randomly erased areas of an image in vanilla masking method. We further introduce a dynamic loss function design with soft distance to adapt the integrated architecture and avoid mismatches between transformed input and objective in Masked Siamese ConvNets (MSCN). The dynamic loss distance is calculated according to the proposed mix-masking scheme. Extensive experiments are conducted on various datasets of CIFAR-100, Tiny-ImageNet and ImageNet-1K. The results demonstrate that the proposed framework can achieve better accuracy on linear probing, semi-supervised and {supervised finetuning}, which outperforms the state-of-the-art MSCN by a significant margin. We also show the superiority on downstream tasks of object detection and segmentation. Our source code is available at https://github.com/LightnessOfBeing/MixMask.

arxiv情報

著者 Kirill Vishniakov,Eric Xing,Zhiqiang Shen
発行日 2022-10-20 17:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク