Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo Labeling and Multi-scale Feature Grouping

要約

弱教師監視隠蔽オブジェクト セグメンテーション (WSCOS) は、モデルのトレーニングにまばらに注釈が付けられたデータを使用して、周囲の環境とよくブレンドされているオブジェクトをセグメント化することを目的としています。
(1) 本質的な類似性により、隠されたオブジェクトを背景から区別するのが難しい、(2) まばらに注釈が付けられたトレーニング データではモデル学習の監視が弱いため、これは依然として困難な作業です。
この論文では、これら 2 つの課題に対処するための新しい WSCOS 手法を提案します。
本質的な類似性の課題に取り組むために、最初にさまざまな粒度で特徴をグループ化し、次にこれらのグループ化結果を集約するマルチスケール特徴グループ化モジュールを設計します。
類似した特徴をグループ化することでセグメンテーションの一貫性が促進され、単一オブジェクト画像と複数オブジェクト画像の両方で完全なセグメンテーション結果を取得できるようになります。
弱い監視の課題では、最近提案されたビジョン基盤モデルであるセグメント エニシング モデル (SAM) を利用し、提供されたスパース アノテーションをプロンプトとして使用して、モデルのトレーニングに使用されるセグメンテーション マスクを生成します。
低品質のセグメンテーション マスクの影響を軽減するために、マルチ拡張結果アンサンブル、エントロピー ベースのピクセル レベルの重み付け、エントロピー ベースの画像レベルの選択などの一連の戦略をさらに提案します。
これらの戦略は、セグメンテーション モデルをトレーニングするためのより信頼性の高い監視を提供するのに役立ちます。
我々は、さまざまな WSCOS タスクに対するこの手法の有効性を検証し、実験により、これらのタスクにおいて我々の手法が最先端のパフォーマンスを達成することが実証されました。

要約(オリジナル)

Weakly-Supervised Concealed Object Segmentation (WSCOS) aims to segment objects well blended with surrounding environments using sparsely-annotated data for model training. It remains a challenging task since (1) it is hard to distinguish concealed objects from the background due to the intrinsic similarity and (2) the sparsely-annotated training data only provide weak supervision for model learning. In this paper, we propose a new WSCOS method to address these two challenges. To tackle the intrinsic similarity challenge, we design a multi-scale feature grouping module that first groups features at different granularities and then aggregates these grouping results. By grouping similar features together, it encourages segmentation coherence, helping obtain complete segmentation results for both single and multiple-object images. For the weak supervision challenge, we utilize the recently-proposed vision foundation model, Segment Anything Model (SAM), and use the provided sparse annotations as prompts to generate segmentation masks, which are used to train the model. To alleviate the impact of low-quality segmentation masks, we further propose a series of strategies, including multi-augmentation result ensemble, entropy-based pixel-level weighting, and entropy-based image-level selection. These strategies help provide more reliable supervision to train the segmentation model. We verify the effectiveness of our method on various WSCOS tasks, and experiments demonstrate that our method achieves state-of-the-art performance on these tasks.

arxiv情報

著者 Chunming He,Kai Li,Yachao Zhang,Guoxia Xu,Longxiang Tang,Yulun Zhang,Zhenhua Guo,Xiu Li
発行日 2023-05-18 14:31:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク