要約
ディープな顕著なオブジェクト検出 (SOD) は目覚ましい進歩を遂げましたが、ディープ SOD モデルは非常に大量のデータを必要とし、そのような有望な結果を得るには大規模なピクセル単位の注釈が必要です。
この論文では、少数のラベル付きデータのみを必要とする無限の高品質の画像マスクペアを生成できる、造語SODGANというSODの斬新で効果的な方法を提案します。これらの合成されたペアは、人間がラベル付けしたDUTS-TRを置き換えてトレーニングできます
既製の SOD モデル。
その貢献度は 3 倍です。
1)提案された拡散埋め込みネットワークは、マニホールドの不一致に対処でき、潜在コード生成に扱いやすく、ImageNet潜在空間とよりよく一致します。
2) 提案された少数ショット顕著性マスク ジェネレーターは初めて、少数のラベル付きデータを使用して無限に正確な画像同期顕著性マスクを合成できます。
3) 提案された品質認識弁別器は、ノイズの多い合成データ プールから高品質の合成画像マスク ペアを選択し、合成データの品質を向上させることができます。
当社の SODGAN は、生成モデルから直接生成された合成データを使用して SOD に初めて取り組み、SOD の新しい研究パラダイムを切り開きます。
広範な実験結果は、合成データでトレーニングされた顕著性モデルが DUTS-TR でトレーニングされた顕著性モデルの $98.4\%$ F 値を達成できることを示しています。
さらに、私たちのアプローチは、半/弱教師ありメソッドで新しい SOTA パフォーマンスを達成し、いくつかの完全教師あり SOTA メソッドよりも優れています。
コードは https://github.com/wuzhenyubuaa/SODGAN で入手できます。
要約(オリジナル)
Although deep salient object detection (SOD) has achieved remarkable progress, deep SOD models are extremely data-hungry, requiring large-scale pixel-wise annotations to deliver such promising results. In this paper, we propose a novel yet effective method for SOD, coined SODGAN, which can generate infinite high-quality image-mask pairs requiring only a few labeled data, and these synthesized pairs can replace the human-labeled DUTS-TR to train any off-the-shelf SOD model. Its contribution is three-fold. 1) Our proposed diffusion embedding network can address the manifold mismatch and is tractable for the latent code generation, better matching with the ImageNet latent space. 2) For the first time, our proposed few-shot saliency mask generator can synthesize infinite accurate image synchronized saliency masks with a few labeled data. 3) Our proposed quality-aware discriminator can select highquality synthesized image-mask pairs from noisy synthetic data pool, improving the quality of synthetic data. For the first time, our SODGAN tackles SOD with synthetic data directly generated from the generative model, which opens up a new research paradigm for SOD. Extensive experimental results show that the saliency model trained on synthetic data can achieve $98.4\%$ F-measure of the saliency model trained on the DUTS-TR. Moreover, our approach achieves a new SOTA performance in semi/weakly-supervised methods, and even outperforms several fully-supervised SOTA methods. Code is available at https://github.com/wuzhenyubuaa/SODGAN
arxiv情報
著者 | Zhenyu Wu,Lin Wang,Wei Wang,Tengfei Shi,Chenglizhao Chen,Aimin Hao,Shuo Li |
発行日 | 2022-10-25 08:36:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google