Background Activation Suppression for Weakly Supervised Object Localization and Semantic Segmentation

要約

弱監視オブジェクトの位置特定とセマンティック セグメンテーションは、画像レベルのラベルのみを使用してオブジェクトの位置を特定することを目的としています。
最近、前景予測マップ (FPM) を生成してピクセルレベルの位置特定を実現するという新しいパラダイムが登場しました。
既存の FPM ベースの手法では、クロス エントロピーを使用して前景予測マップを評価し、ジェネレーターの学習をガイドしますが、この論文では、オブジェクト位置特定学習プロセスに関する 2 つの驚くべき実験的観察を示します。訓練されたネットワークの場合、前景マスクが拡大するにつれて、
1) 前景マスクがオブジェクト領域の一部のみをカバーする場合、クロスエントロピーはゼロに収束します。
2) 前景マスクがオブジェクトの境界まで拡張されるまで、アクティベーション値が増加し続けます。
したがって、より効果的な位置特定パフォーマンスを達成するには、アクティベーション値を使用してより多くのオブジェクト領域を学習することを主張します。
本稿では、Background Activation Suppression (BAS) 手法を提案します。
具体的には、アクティベーション マップ制約 (AMC) モジュールは、バックグラウンド アクティベーション値を抑制することでジェネレーターの学習を促進するように設計されています。
一方、前景領域のガイダンスと領域制約を使用することで、BAS はオブジェクトの全領域を学習できます。
推論フェーズでは、さまざまなカテゴリの予測マップを一緒に検討して、最終的な位置特定結果を取得します。
広範な実験により、BAS が CUB-200-2011 および ILSVRC データセットのベースライン手法と比べて大幅かつ一貫した改善を達成することが示されています。
さらに、私たちの手法は、PASCAL VOC 2012 および MS COCO 2014 データセット上で最先端の弱教師セマンティック セグメンテーション パフォーマンスも実現します。
コードとモデルは https://github.com/wpy1999/BAS-Extension で入手できます。

要約(オリジナル)

Weakly supervised object localization and semantic segmentation aim to localize objects using only image-level labels. Recently, a new paradigm has emerged by generating a foreground prediction map (FPM) to achieve pixel-level localization. While existing FPM-based methods use cross-entropy to evaluate the foreground prediction map and to guide the learning of the generator, this paper presents two astonishing experimental observations on the object localization learning process: For a trained network, as the foreground mask expands, 1) the cross-entropy converges to zero when the foreground mask covers only part of the object region. 2) The activation value continuously increases until the foreground mask expands to the object boundary. Therefore, to achieve a more effective localization performance, we argue for the usage of activation value to learn more object regions. In this paper, we propose a Background Activation Suppression (BAS) method. Specifically, an Activation Map Constraint (AMC) module is designed to facilitate the learning of generator by suppressing the background activation value. Meanwhile, by using foreground region guidance and area constraint, BAS can learn the whole region of the object. In the inference phase, we consider the prediction maps of different categories together to obtain the final localization results. Extensive experiments show that BAS achieves significant and consistent improvement over the baseline methods on the CUB-200-2011 and ILSVRC datasets. In addition, our method also achieves state-of-the-art weakly supervised semantic segmentation performance on the PASCAL VOC 2012 and MS COCO 2014 datasets. Code and models are available at https://github.com/wpy1999/BAS-Extension.

arxiv情報

著者 Wei Zhai,Pingyu Wu,Kai Zhu,Yang Cao,Feng Wu,Zheng-Jun Zha
発行日 2023-09-22 15:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク