Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation

要約

半教師あり学習と自己教師あり学習はラベルなしデータから知識を効果的にモデル化するという基本原理を共有しているという事実を考慮して、さまざまな半教師ありセマンティックセグメンテーション手法は、さらなる正則化のために代表的な自己教師あり学習パラダイムを統合しています。
しかし、最先端の自己教師あり生成パラダイムであるマスク画像モデリングの可能性はほとんど研究されていません。
このパラダイムは、ピクセル再構成プロセス中に、マスクされた画像のマスクされた部分と可視部分の間の接続を確立することによって知識を学習します。
この洞察を継承および拡張することで、マスクされた画像モデリングを活用して、半教師ありセマンティック セグメンテーションを強化することに成功しました。
具体的には、それぞれのクラスに従って異なる画像領域を独立して再構成する、新しいクラスごとのマスクされた画像モデリングを導入します。
このようにして、マスクによって引き起こされる接続が各クラス内で確立され、基本的なマスクされた画像モデリングで画像を単純に再構成することから生じる意味上の混乱が軽減されます。
これらのクラス内接続を強化するために、同じクラス内のマスクされた部分と表示されている部分に対応するフィーチャ間の距離を最小化するフィーチャ集約戦略をさらに開発します。
さらに、意味空間では、正則化を強化するためのマスクされた画像モデリングのアプリケーションを調査します。
有名なベンチマークに対して行われた広範な実験により、私たちのアプローチが最先端のパフォーマンスを達成していることが実証されています。
コードは https://github.com/haoxt/S4MIM で入手できます。

要約(オリジナル)

In view of the fact that semi- and self-supervised learning share a fundamental principle, effectively modeling knowledge from unlabeled data, various semi-supervised semantic segmentation methods have integrated representative self-supervised learning paradigms for further regularization. However, the potential of the state-of-the-art generative self-supervised paradigm, masked image modeling, has been scarcely studied. This paradigm learns the knowledge through establishing connections between the masked and visible parts of masked image, during the pixel reconstruction process. By inheriting and extending this insight, we successfully leverage masked image modeling to boost semi-supervised semantic segmentation. Specifically, we introduce a novel class-wise masked image modeling that independently reconstructs different image regions according to their respective classes. In this way, the mask-induced connections are established within each class, mitigating the semantic confusion that arises from plainly reconstructing images in basic masked image modeling. To strengthen these intra-class connections, we further develop a feature aggregation strategy that minimizes the distances between features corresponding to the masked and visible parts within the same class. Additionally, in semantic space, we explore the application of masked image modeling to enhance regularization. Extensive experiments conducted on well-known benchmarks demonstrate that our approach achieves state-of-the-art performance. The code will be available at https://github.com/haoxt/S4MIM.

arxiv情報

著者 Yangyang Li,Xuanting Hao,Ronghua Shang,Licheng Jiao
発行日 2024-11-14 08:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク