Weakly-Supervised Camouflaged Object Detection with Scribble Annotations

要約

既存のカモフラージュされたオブジェクト検出(COD)メソッドは、ピクセル単位の注釈を持つ大規模なデータセットに大きく依存しています。
ただし、境界があいまいなため、カモフラージュオブジェクトにピクセル単位で注釈を付けるのは非常に時間と労力がかかります(画像ごとに約60分かかります)。
本論文では、監視として落書き注釈を使用して、最初の弱く監視されたカモフラージュされたオブジェクト検出(COD)方法を提案します。
これを実現するために、まず、4,040枚の画像と対応する落書き注釈を使用して落書きベースのカモフラージュオブジェクトデータセットを構築します。
データセットで使用されている落書きに注釈を付けるのにかかる時間は、画像ごとに約10秒で、ピクセルごとの注釈より360倍高速であることに注意してください。
ただし、監視にスクリブルアノテーションを直接使用するネットワークでは、カモフラージュされたオブジェクトの境界を特定できず、スクリブルアノテーションはオブジェクトの主要な構造のみを記述し、詳細がないため、予測に一貫性がない傾向があります。
この問題に取り組むために、2つの部分で構成される新しい一貫性損失を提案します。異なる画像で信頼性の高い一貫性を実現する信頼性の高いクロスビュー損失と、単一の予測マップ内で一貫性を維持するソフトな内部ビュー損失です。
さらに、人間がセマンティック情報を使用して、カモフラージュされたオブジェクトの境界近くの領域をセグメント化することを観察します。
したがって、画像から直接抽出された視覚的特徴と、モデルによってキャプチャされた意味的に重要な特徴を含む、特徴誘導損失を設計します。
さらに、構造情報と意味関係の落書き学習によってカモフラージュされたオブジェクトを検出する新しいネットワークを提案します。
実験結果は、私たちのモデルが3つのCODベンチマークで関連する最先端の方法を上回り、MAEで11.0%、Sメジャーで3.2%、Eメジャーで2.5%、加重F-で4.4%の平均改善を示しています。
測定。

要約(オリジナル)

Existing camouflaged object detection (COD) methods rely heavily on large-scale datasets with pixel-wise annotations. However, due to the ambiguous boundary, it is very time-consuming and labor-intensive to annotate camouflage objects pixel-wisely (which takes ~ 60 minutes per image). In this paper, we propose the first weakly-supervised camouflaged object detection (COD) method, using scribble annotations as supervision. To achieve this, we first construct a scribble-based camouflaged object dataset with 4,040 images and corresponding scribble annotations. It is worth noting that annotating the scribbles used in our dataset takes only ~ 10 seconds per image, which is 360 times faster than per-pixel annotations. However, the network directly using scribble annotations for supervision will fail to localize the boundary of camouflaged objects and tend to have inconsistent predictions since scribble annotations only describe the primary structure of objects without details. To tackle this problem, we propose a novel consistency loss composed of two parts: a reliable cross-view loss to attain reliable consistency over different images, and a soft inside-view loss to maintain consistency inside a single prediction map. Besides, we observe that humans use semantic information to segment regions near boundaries of camouflaged objects. Therefore, we design a feature-guided loss, which includes visual features directly extracted from images and semantically significant features captured by models. Moreover, we propose a novel network that detects camouflaged objects by scribble learning on structural information and semantic relations. Experimental results show that our model outperforms relevant state-of-the-art methods on three COD benchmarks with an average improvement of 11.0% on MAE, 3.2% on S-measure, 2.5% on E-measure and 4.4% on weighted F-measure.

arxiv情報

著者 Ruozhen He,Qihua Dong,Jiaying Lin,Rynson W. H. Lau
発行日 2022-07-28 13:40:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク