Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well

要約

カモフラージュオブジェクトセグメンテーション(COS)は、カモフラージュされたオブジェクトと背景の微妙な視覚的な違いのため、依然として困難な問題のままです。
可視スペクトルから利用可能な非常に限られた視覚的キューにより、以前のRGBシングルモダリティアプローチは満足のいく結果を達成するのに苦労し、検出精度を高めるためにマルチモーダルデータの探索を促します。
この作業では、セグメンテーションパフォーマンスを改善するために多様なデータモダリティを効果的に活用する新しいフレームワークであるUnicosを提示します。
UNICOSは、マルチモーダルセグメント装置、UNISEG、およびクロスモーダルナレッジ学習モジュールであるUNILEARNERの2つの重要なコンポーネントで構成されています。
Unisegは、状態空間融合メカニズムを採用して、統一された状態空間内にクロスモーダル機能を統合し、コンテキストの理解を高め、不均一データの統合に堅牢性を向上させます。
さらに、特徴抽出を促進する融合フィードバックメカニズムが含まれています。
Unilearnerは、擬似モーダルコンテンツとクロスモーダルセマンティックアソシエーションを生成することにより、COSタスクとは無関係のMultimodal Dataをcosタスクに関連付けてCOSモデルのセグメンテーション能力を向上させます。
広範な実験では、ユニセグは、実際のまたは擬似マルチモーダルCOSデータが利用可能であるかどうかに関係なく、既存のマルチモーダルCOS(MCOS)セグメント装置を上回ることが示されています。
さらに、マルチモーダルCOSデータが利用できないがマルチモーダルの非COSデータにアクセスできるシナリオでは、Unilearnerはこれらのデータを効果的に活用してセグメンテーションパフォーマンスを強化します。
私たちのコードは、\ href {https://github.com/cnyvfang/unicos} {github}で公開されます。

要約(オリジナル)

Camouflaged Object Segmentation (COS) remains a challenging problem due to the subtle visual differences between camouflaged objects and backgrounds. Owing to the exceedingly limited visual cues available from visible spectrum, previous RGB single-modality approaches often struggle to achieve satisfactory results, prompting the exploration of multimodal data to enhance detection accuracy. In this work, we present UniCOS, a novel framework that effectively leverages diverse data modalities to improve segmentation performance. UniCOS comprises two key components: a multimodal segmentor, UniSEG, and a cross-modal knowledge learning module, UniLearner. UniSEG employs a state space fusion mechanism to integrate cross-modal features within a unified state space, enhancing contextual understanding and improving robustness to integration of heterogeneous data. Additionally, it includes a fusion-feedback mechanism that facilitate feature extraction. UniLearner exploits multimodal data unrelated to the COS task to improve the segmentation ability of the COS models by generating pseudo-modal content and cross-modal semantic associations. Extensive experiments demonstrate that UniSEG outperforms existing Multimodal COS (MCOS) segmentors, regardless of whether real or pseudo-multimodal COS data is available. Moreover, in scenarios where multimodal COS data is unavailable but multimodal non-COS data is accessible, UniLearner effectively exploits these data to enhance segmentation performance. Our code will be made publicly available on \href{https://github.com/cnyvfang/UniCOS}{GitHub}.

arxiv情報

著者 Chengyu Fang,Chunming He,Longxiang Tang,Yuelin Zhang,Chenyang Zhu,Yuqi Shen,Chubin Chen,Guoxia Xu,Xiu Li
発行日 2025-02-20 11:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク