Exploiting Shape Cues for Weakly Supervised Semantic Segmentation

要約

弱教師付きセマンティックセグメンテーション(WSSS)は、画像レベルのラベルのみを学習に用いて、画素単位のクラス予測を行うことを目的としている。そのため、従来の手法では、クラス活性化マップ(CAM)から擬似マスクを生成し、そのマスクを用いてセグメンテーションネットワークを教師するという共通のパイプラインが採用されている。しかし、CAMは局所的な性質を持っているため、物体の全範囲をカバーする擬似マスクを生成することは困難である(小さな識別力を持つ物体部分のみに注目する傾向がある)。本論文では、CAMの局所性と畳み込みニューラルネットワーク(CNN)のテクスチャに依存する性質を関連付ける。これにより、マスク予測は包括的であるだけでなく、物体境界とよく一致するようになる。さらに、クラスと色の親和性の両方を考慮した新しい洗練化手法により、オンライン方式で予測を洗練化し、モデルを監督するための信頼性の高い擬似マスクを生成する。重要なのは、我々のモデルが1ステージのフレームワークでエンドツーエンドに学習されるため、学習コストの点で効率的であることである。PASCAL VOC 2012を用いた広範な実験により、本手法が正確かつ形状に沿ったセグメンテーション結果を生成する有効性を検証する。具体的には、本手法は既存のシングルステージアプローチを大きく上回る結果を得ることができた。さらに、2段のパイプラインを採用した場合、多段アプローチを超える最新の性能を達成することができる。

要約(オリジナル)

Weakly supervised semantic segmentation (WSSS) aims to produce pixel-wise class predictions with only image-level labels for training. To this end, previous methods adopt the common pipeline: they generate pseudo masks from class activation maps (CAMs) and use such masks to supervise segmentation networks. However, it is challenging to derive comprehensive pseudo masks that cover the whole extent of objects due to the local property of CAMs, i.e., they tend to focus solely on small discriminative object parts. In this paper, we associate the locality of CAMs with the texture-biased property of convolutional neural networks (CNNs). Accordingly, we propose to exploit shape information to supplement the texture-biased CNN features, thereby encouraging mask predictions to be not only comprehensive but also well-aligned with object boundaries. We further refine the predictions in an online fashion with a novel refinement method that takes into account both the class and the color affinities, in order to generate reliable pseudo masks to supervise the model. Importantly, our model is end-to-end trained within a single-stage framework and therefore efficient in terms of the training cost. Through extensive experiments on PASCAL VOC 2012, we validate the effectiveness of our method in producing precise and shape-aligned segmentation results. Specifically, our model surpasses the existing state-of-the-art single-stage approaches by large margins. What is more, it also achieves a new state-of-the-art performance over multi-stage approaches, when adopted in a simple two-stage pipeline without bells and whistles.

arxiv情報

著者 Sungpil Kho,Pilhyeon Lee,Wonyoung Lee,Minsong Ki,Hyeran Byun
発行日 2022-08-08 17:25:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク