要約
自己教師あり学習の最近の進歩により、マスクド イメージ モデリング (MIM) と Siamese Networks がうまく組み合わされ、両方の方法論の長所が活用されています。
それにもかかわらず、従来の消去ベースのマスキングを Siamese ConvNet 内に統合する場合、特定の課題が残ります。
主な懸念事項は 2 つあります。(1) ConvNet の継続的なデータ処理の性質により、有益でないマスクされた領域の除外ができないため、ViT アーキテクチャと比較してトレーニング効率が低下します。
(2) 消去ベースのマスキングとコントラストベースの対物レンズの間の位置ずれ。これは MIM 技術と区別されます。
これらの課題に対処するために、この研究では \textbf{MixMask} と呼ばれる新しい塗りつぶしベースのマスキング アプローチを導入しています。
提案された方法は、消去された領域を別の画像のコンテンツに置き換え、従来のマスキング方法で見られる情報の枯渇に効果的に対抗します。
さらに、新しくパッチされたビューのセマンティクスをキャプチャする適応損失関数を発表し、アーキテクチャ フレームワーク内でのシームレスな統合を保証します。
私たちは、さまざまなデータセットとアプリケーション シナリオにわたる包括的な実験を通じて、アプローチの有効性を経験的に検証します。
この調査結果は、線形プローブ、半教師ありおよび教師あり微調整、オブジェクト検出、セグメンテーションなどの分野におけるフレームワークのパフォーマンスが向上していることを強調しています。
特に、私たちの方法は MSCN を上回り、Siamese ConvNet にとってより有利なマスキング ソリューションとして MixMask を確立しています。
私たちのコードとモデルは https://github.com/karill-vish/MixMask で公開されています。
要約(オリジナル)
The recent progress in self-supervised learning has successfully combined Masked Image Modeling (MIM) with Siamese Networks, harnessing the strengths of both methodologies. Nonetheless, certain challenges persist when integrating conventional erase-based masking within Siamese ConvNets. Two primary concerns are: (1) The continuous data processing nature of ConvNets, which doesn’t allow for the exclusion of non-informative masked regions, leading to reduced training efficiency compared to ViT architecture; (2) The misalignment between erase-based masking and the contrastive-based objective, distinguishing it from the MIM technique. To address these challenges, this work introduces a novel filling-based masking approach, termed \textbf{MixMask}. The proposed method replaces erased areas with content from a different image, effectively countering the information depletion seen in traditional masking methods. Additionally, we unveil an adaptive loss function that captures the semantics of the newly patched views, ensuring seamless integration within the architectural framework. We empirically validate the effectiveness of our approach through comprehensive experiments across various datasets and application scenarios. The findings underscore our framework’s enhanced performance in areas such as linear probing, semi-supervised and supervised finetuning, object detection and segmentation. Notably, our method surpasses the MSCN, establishing MixMask as a more advantageous masking solution for Siamese ConvNets. Our code and models are publicly available at https://github.com/kirill-vish/MixMask.
arxiv情報
著者 | Kirill Vishniakov,Eric Xing,Zhiqiang Shen |
発行日 | 2024-11-11 14:00:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google