Towards Real Zero-Shot Camouflaged Object Segmentation without Camouflaged Annotations

要約

カモフラージュ オブジェクト セグメンテーション (COS) は、アノテーション付きデータの不足により重大な課題に直面しています。主に複雑なオブジェクトと背景の境界により、細心の注意を払ったピクセル レベルのアノテーションは労力とコストの両方がかかります。
「カモフラージュされたオブジェクトに対して手動で注釈を付けずに、ゼロショット方式で COS を効果的に達成できるか?」という核心的な質問に対処します。
私たちは積極的に対応し、堅牢なゼロショット COS フレームワークを導入します。
このフレームワークは、COS の固有のローカル パターン バイアスを活用し、効率的なゼロショット転送のために顕著なオブジェクト セグメンテーション (SOS) から派生した広範なセマンティック特徴空間を採用します。
パラメーター効率の良い微調整 (PEFT)、マルチモーダル大規模言語モデル (M-LLM)、およびマルチスケールのファイングレイン アライメント (MFA) メカニズム用に最適化されたマスク イメージ モデリング (MIM) ベースのイメージ エンコーダーが組み込まれています。
MIM 事前トレーニング済み画像エンコーダーは、重要な低レベルの特徴をキャプチャすることに重点を置き、M-LLM は、これらの視覚的手がかりとともに処理されるキャプション埋め込みを生成します。
これらの埋め込みは MFA を使用して正確に調整され、フレームワークが複雑なセマンティック コンテキストを正確に解釈してナビゲートできるようになります。
運用効率を最適化するために、推論中に M-LLM を表す学習可能なコードブックを導入し、計算オーバーヘッドを大幅に削減します。
私たちのフレームワークは、厳密な実験を通じてその多用途性と有効性を実証し、ゼロショット COS で $F_{\beta}^w$ スコアが CAMO で 72.9\%、COD10K で 71.7\% という最先端のパフォーマンスを達成しました。
推論中に M-LLM を削除することで、従来のエンドツーエンド モデルと同等の推論速度を実現し、18.1 FPS に達します。
コード: https://github.com/R-LEI360725/ZSCOS-CaMF

要約(オリジナル)

Camouflaged Object Segmentation (COS) faces significant challenges due to the scarcity of annotated data, where meticulous pixel-level annotation is both labor-intensive and costly, primarily due to the intricate object-background boundaries. Addressing the core question, ‘Can COS be effectively achieved in a zero-shot manner without manual annotations for any camouflaged object?’ we affirmatively respond and introduce a robust zero-shot COS framework. This framework leverages the inherent local pattern bias of COS and employs a broad semantic feature space derived from salient object segmentation (SOS) for efficient zero-shot transfer. We incorporate an Masked Image Modeling (MIM) based image encoder optimized for Parameter-Efficient Fine-Tuning (PEFT), a Multimodal Large Language Model (M-LLM), and a Multi-scale Fine-grained Alignment (MFA) mechanism. The MIM pre-trained image encoder focuses on capturing essential low-level features, while the M-LLM generates caption embeddings processed alongside these visual cues. These embeddings are precisely aligned using MFA, enabling our framework to accurately interpret and navigate complex semantic contexts. To optimize operational efficiency, we introduce a learnable codebook that represents the M-LLM during inference, significantly reducing computational overhead. Our framework demonstrates its versatility and efficacy through rigorous experimentation, achieving state-of-the-art performance in zero-shot COS with $F_{\beta}^w$ scores of 72.9\% on CAMO and 71.7\% on COD10K. By removing the M-LLM during inference, we achieve an inference speed comparable to that of traditional end-to-end models, reaching 18.1 FPS. Code: https://github.com/R-LEI360725/ZSCOS-CaMF

arxiv情報

著者 Cheng Lei,Jie Fan,Xinran Li,Tianzhu Xiang,Ao Li,Ce Zhu,Le Zhang
発行日 2024-10-22 12:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク