Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and Semantic Segmentation

要約

画像分類ネットワークによって生成されたクラス活性化マップ (CAM) は、弱教師付きオブジェクト ローカリゼーション (WSOL) およびセマンティック セグメンテーション (WSSS) に広く使用されていますが、そのような分類器は通常、識別可能なオブジェクト領域に焦点を当てています。
この論文では、画像レベルの監視の関与なしに、ラベルのない画像データのみを使用して、クラスに依存しない活性化マップ (C$^2$AM) を生成するための対照的な学習を提案します。
核となるアイデアは、i) 前景オブジェクトのセマンティック情報は通常、背景とは異なるという観察から来ています。
ii) 同様の外観を持つ前景オブジェクト、または同様の色/テクスチャを持つ背景は、特徴空間で同様の表現を持ちます。
上記の関係に基づいて正と負のペアを形成し、新しいコントラスト損失を使用して、クラスに依存しないアクティベーション マップを使用して、ネットワークに前景と背景のもつれを解消させます。
ネットワークはクロスイメージの前景と背景を識別するように導かれるため、私たちのアプローチによって学習されたクラスに依存しないアクティベーション マップは、より完全なオブジェクト領域を生成します。
C$^2$AM クラスにとらわれないオブジェクト境界ボックスからオブジェクト ローカリゼーションとバックグラウンド キューを抽出することに成功し、セマンティック セグメンテーションのために分類ネットワークによって生成された CAM を改良しました。
CUB-200-2011、ImageNet-1K、および PASCAL VOC2012 データセットに関する広範な実験は、WSOL と WSSS の両方が提案された C$^2$AM から利益を得ることができることを示しています。

要約(オリジナル)

While class activation map (CAM) generated by image classification network has been widely used for weakly supervised object localization (WSOL) and semantic segmentation (WSSS), such classifiers usually focus on discriminative object regions. In this paper, we propose Contrastive learning for Class-agnostic Activation Map (C$^2$AM) generation only using unlabeled image data, without the involvement of image-level supervision. The core idea comes from the observation that i) semantic information of foreground objects usually differs from their backgrounds; ii) foreground objects with similar appearance or background with similar color/texture have similar representations in the feature space. We form the positive and negative pairs based on the above relations and force the network to disentangle foreground and background with a class-agnostic activation map using a novel contrastive loss. As the network is guided to discriminate cross-image foreground-background, the class-agnostic activation maps learned by our approach generate more complete object regions. We successfully extracted from C$^2$AM class-agnostic object bounding boxes for object localization and background cues to refine CAM generated by classification network for semantic segmentation. Extensive experiments on CUB-200-2011, ImageNet-1K, and PASCAL VOC2012 datasets show that both WSOL and WSSS can benefit from the proposed C$^2$AM.

arxiv情報

著者 Jinheng Xie,Jianfeng Xiang,Junliang Chen,Xianxu Hou,Xiaodong Zhao,Linlin Shen
発行日 2022-12-22 13:16:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク