Rethinking the Localization in Weakly Supervised Object Localization

要約

弱教師監視オブジェクト位置特定 (WSOL) は、コンピューター ビジョンで最も一般的かつ困難なタスクの 1 つです。
このタスクは、画像レベルの監視のみを与えて画像内のオブジェクトの位置を特定することです。
最近、WSOL を 2 つの部分 (クラスに依存しないオブジェクトの位置特定とオブジェクトの分類) に分割することが、このタスクの最先端のパイプラインになりました。
ただし、このパイプラインに基づく既存のソリューションには、通常、次の欠点があります。1) ローカライゼーションに単一クラス回帰 (SCR) が採用されているため、画像ごとに 1 つのオブジェクトしかローカライズできないため、柔軟性がありません。
2) 生成された擬似境界ボックスにはノイズが含まれる可能性がありますが、そのようなノイズの悪影響は十分に対処されていません。
これらの欠点を解決するために、まず、複数のオブジェクトの位置を特定するために SCR をバイナリクラス検出器 (BCD) に置き換えることを提案します。検出器は前景と背景を区別することによってトレーニングされます。
次に、ラベルなしデータを使用して加重エントロピー (WE) 損失を設計し、ノイズの多い境界ボックスの悪影響を軽減します。
人気のある CUB-200-2011 および ImageNet-1K データセットに対する広範な実験により、私たちの手法の有効性が実証されました。

要約(オリジナル)

Weakly supervised object localization (WSOL) is one of the most popular and challenging tasks in computer vision. This task is to localize the objects in the images given only the image-level supervision. Recently, dividing WSOL into two parts (class-agnostic object localization and object classification) has become the state-of-the-art pipeline for this task. However, existing solutions under this pipeline usually suffer from the following drawbacks: 1) they are not flexible since they can only localize one object for each image due to the adopted single-class regression (SCR) for localization; 2) the generated pseudo bounding boxes may be noisy, but the negative impact of such noise is not well addressed. To remedy these drawbacks, we first propose to replace SCR with a binary-class detector (BCD) for localizing multiple objects, where the detector is trained by discriminating the foreground and background. Then we design a weighted entropy (WE) loss using the unlabeled data to reduce the negative impact of noisy bounding boxes. Extensive experiments on the popular CUB-200-2011 and ImageNet-1K datasets demonstrate the effectiveness of our method.

arxiv情報

著者 Rui Xu,Yong Luo,Han Hu,Bo Du,Jialie Shen,Yonggang Wen
発行日 2023-08-11 14:38:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク