要約
既存のカモフラージュ オブジェクト検出 (COD) メソッドは、ピクセル単位の注釈を含む大規模なデータセットに大きく依存しています。
ただし、境界があいまいなため、カモフラージュ オブジェクトにピクセル単位で注釈を付けるには、非常に時間と労力がかかり、1 つの画像にラベルを付けるのに約 60 分かかります。
この論文では、落書き注釈を監督として使用する、最初の弱監督 COD 法を提案します。
これを実現するために、最初に既存のカモフラージュ オブジェクト データセット内の 4,040 枚の画像を落書きで再ラベル付けします。これには、1 つの画像にラベルを付けるのに約 10 秒かかります。
落書き注釈は詳細なしでオブジェクトの主要な構造のみを説明するため、ネットワークがカモフラージュされたオブジェクトの境界をローカライズすることを学習するために、2 つの部分で構成される新しい一貫性損失を提案します。
単一の予測マップ内で一貫性を維持するための内部ビューの損失。
さらに、人間がセマンティック情報を使用して、カモフラージュされたオブジェクトの境界近くの領域をセグメント化することを観察します。
したがって、画像から直接抽出された視覚的特徴と、モデルによってキャプチャされた意味的に重要な特徴を含む、特徴ガイド付き損失をさらに提案します。
最後に、構造情報と意味関係の落書き学習による COD の新しいネットワークを提案します。
私たちのネットワークには2つの新しいモジュールがあります。ローカルコンテキストコントラスト(LCC)モジュールは、視覚的抑制を模倣して画像のコントラスト/シャープネスを強化し、落書きを潜在的なカモフラージュ領域に拡張します。論理意味関係(LSR)モジュールは、セマンティックを分析します
カモフラージュされたオブジェクトを表す領域を決定するための関係。
実験結果は、私たちのモデルが 3 つの COD ベンチマークで関連する SOTA メソッドよりも優れていることを示しており、MAE で 11.0%、S メジャーで 3.2%、E メジャーで 2.5%、加重 F メジャーで 4.4% の平均改善が見られます。
要約(オリジナル)
Existing camouflaged object detection (COD) methods rely heavily on large-scale datasets with pixel-wise annotations. However, due to the ambiguous boundary, annotating camouflage objects pixel-wisely is very time-consuming and labor-intensive, taking ~60mins to label one image. In this paper, we propose the first weakly-supervised COD method, using scribble annotations as supervision. To achieve this, we first relabel 4,040 images in existing camouflaged object datasets with scribbles, which takes ~10s to label one image. As scribble annotations only describe the primary structure of objects without details, for the network to learn to localize the boundaries of camouflaged objects, we propose a novel consistency loss composed of two parts: a cross-view loss to attain reliable consistency over different images, and an inside-view loss to maintain consistency inside a single prediction map. Besides, we observe that humans use semantic information to segment regions near the boundaries of camouflaged objects. Hence, we further propose a feature-guided loss, which includes visual features directly extracted from images and semantically significant features captured by the model. Finally, we propose a novel network for COD via scribble learning on structural information and semantic relations. Our network has two novel modules: the local-context contrasted (LCC) module, which mimics visual inhibition to enhance image contrast/sharpness and expand the scribbles into potential camouflaged regions, and the logical semantic relation (LSR) module, which analyzes the semantic relation to determine the regions representing the camouflaged object. Experimental results show that our model outperforms relevant SOTA methods on three COD benchmarks with an average improvement of 11.0% on MAE, 3.2% on S-measure, 2.5% on E-measure, and 4.4% on weighted F-measure.
arxiv情報
著者 | Ruozhen He,Qihua Dong,Jiaying Lin,Rynson W. H. Lau |
発行日 | 2022-11-28 18:51:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google