Multi-Granularity Denoising and Bidirectional Alignment for Weakly Supervised Semantic Segmentation

要約

タイトル:Weakly Supervised Semantic SegmentationのためのMulti-Granularity Denoising and Bidirectional Alignment

要約:

– Weakly Supervised Semantic Segmentation (WSSS)では、クラスの活性化マップ(CAM)に依存するモデルが、CAMを使用しないものよりも望ましい性能を発揮している。
– しかしながら、WSSSタスクを実行するためには、CAMからシードを拡張して擬似ラベルを生成する必要がある。これは複雑で時間がかかるため、効率的なエンドツーエンド(単一段階)WSSSアプローチの設計を妨げている。
– このジレンマに対処するために、画像レベルのクラスのラベルを与えられたときに、棚卸し用の容易に利用可能なサリエンシーマップを利用して擬似ラベルを直接生成する。
– しかし、サリエンシーマップにはノイズのあるラベルが含まれる可能性があり、対象オブジェクトにシームレスに適合することができないため、サリエンシーマップは、単一クラスのオブジェクトが含まれる単純な画像用の擬似ラベルとして近似することしかできない。
– このため、単純な画像を含む複雑なマルチクラスオブジェクトを含む画像に対しては、一般化が十分にできない。
– この問題に対処するために、End-to-End Multi-Granularity Denoising and Bidirectional Alignment(MDBA)モデルを提案する。ネット上のノイズフィルタリングとプログレッシブノイズ検出モジュールを提案して、画像レベルとピクセルレベルのノイズに対処する。
– また、複数の画像合成と複雑から単純へのアドバーサル学習を実施することで、入力空間と出力空間のデータ分布の差を縮小するための双方向アラインメントメカニズムを提案する。
– MDBAは、PASCAL VOC 2012データセットの検証およびテストセットでのmIoUがそれぞれ69.5%および70.2%に到達する。ソースコードとモデルは、https://github.com/NUST-Machine-Intelligence-Laboratory/MDBAで提供されています。

要約(オリジナル)

Weakly supervised semantic segmentation (WSSS) models relying on class activation maps (CAMs) have achieved desirable performance comparing to the non-CAMs-based counterparts. However, to guarantee WSSS task feasible, we need to generate pseudo labels by expanding the seeds from CAMs which is complex and time-consuming, thus hindering the design of efficient end-to-end (single-stage) WSSS approaches. To tackle the above dilemma, we resort to the off-the-shelf and readily accessible saliency maps for directly obtaining pseudo labels given the image-level class labels. Nevertheless, the salient regions may contain noisy labels and cannot seamlessly fit the target objects, and saliency maps can only be approximated as pseudo labels for simple images containing single-class objects. As such, the achieved segmentation model with these simple images cannot generalize well to the complex images containing multi-class objects. To this end, we propose an end-to-end multi-granularity denoising and bidirectional alignment (MDBA) model, to alleviate the noisy label and multi-class generalization issues. Specifically, we propose the online noise filtering and progressive noise detection modules to tackle image-level and pixel-level noise, respectively. Moreover, a bidirectional alignment mechanism is proposed to reduce the data distribution gap at both input and output space with simple-to-complex image synthesis and complex-to-simple adversarial learning. MDBA can reach the mIoU of 69.5\% and 70.2\% on validation and test sets for the PASCAL VOC 2012 dataset. The source codes and models have been made available at \url{https://github.com/NUST-Machine-Intelligence-Laboratory/MDBA}.

arxiv情報

著者 Tao Chen,Yazhou Yao,Jinhui Tang
発行日 2023-05-09 03:33:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク