Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly Supervised Semantic Segmentation


タイトル:Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly Supervised Semantic Segmentation

– ピクセルレベルのアノテーションと比較して、画像レベルの監視だけで行われる弱い監視下でのセマンティック・セグメンテーション(WSSS)は、低いアノテーションコストのため、ますます注目されている。
– 既存の多くの手法は、Class Activation Maps(CAM)を利用して、教育のためのピクセルレベルの疑似ラベルを生成している。
– しかし、CAMは一部分だけを活性化する欠点や、不必要に背景を活性化する偽の活性化等の問題を抱えることがよく知られている。
– この研究では、最近リリースされたSegment Anything Model(SAM)を利用して、CAMとともにより高品質な疑似ラベルを生成する、シンプルで効果的なアプローチを導入する。
– SAMは、画像をセグメントに分割するゼロショットの能力を示すセグメンテーション基盤モデルであるが、これらの領域の意味ラベルを欠いている。この問題を解決するには、特定のクラスの疑似ラベルを使用して、関連性の高いマスクを選択し、これらをラベル付けして改良された疑似ラベルを生成する信号として使用することができる。
– SAMによって生成されたセグメントは非常に精度が高く、部分的な活性化と偽の活性化の改善に大きな改善をもたらす。
– さらに、疑似ラベルを生成するための既存のポストプロセスモジュール(AffinityNetなど)は、通常、計算量が重く、トレーニング時間が非常に長い。驚くべきことに、私たちは初期のCAMをSAMと組み合わせることで、これらのモジュールから生成されるポスト処理された疑似ラベルと同等のパフォーマンスを実現できることがわかった。
– このアプローチは非常に汎用性があり、既存のWSSSモデルに基づくベースネットワークやパイプラインの変更を必要とせずにシームレスに統合できる。
– このアプローチは、PASCAL VOC 2012データセットで5つの最新のWSSS方法の疑似ラベルの平均インターセクションオーバーユニオン(mIoU)を平均で6.2%向上させた。


Weakly Supervised Semantic Segmentation (WSSS) with only image-level supervision has garnered increasing attention due to its low annotation cost compared to pixel-level annotation. Most existing methods rely on Class Activation Maps (CAM) to generate pixel-level pseudo labels for supervised training. However, it is well known that CAM often suffers from partial activation — activating the most discriminative part instead of the entire object area, and false activation — unnecessarily activating the background around the object. In this study, we introduce a simple yet effective approach to address these limitations by harnessing the recently released Segment Anything Model (SAM) to generate higher-quality pseudo labels with CAM. SAM is a segmentation foundation model that demonstrates strong zero-shot ability in partitioning images into segments but lacks semantic labels for these regions. To circumvent this, we employ pseudo labels for a specific class as the signal to select the most relevant masks and label them to generate the refined pseudo labels for this class. The segments generated by SAM are highly precise, leading to substantial improvements in partial and false activation. Moreover, existing post-processing modules for producing pseudo labels, such as AffinityNet, are often computationally heavy, with a significantly long training time. Surprisingly, we discovered that using the initial CAM with SAM can achieve on-par performance as the post-processed pseudo label generated from these modules with much less computational cost. Our approach is highly versatile and capable of seamless integration into existing WSSS models without modification to base networks or pipelines. Despite its simplicity, our approach improves the mean Intersection over Union (mIoU) of pseudo labels from five state-of-the-art WSSS methods by 6.2\% on average on the PASCAL VOC 2012 dataset.


著者 Tianle Chen,Zheda Mai,Ruiwen Li,Wei-lun Chao
発行日 2023-05-09 23:24:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク