CamSAM2: Segment Anything Accurately in Camouflaged Videos

要約

ビデオカモフラージュオブジェクトセグメンテーション(VCO)は、環境にシームレスに融合するカモフラージュオブジェクトのセグメント化を目的としており、さまざまな現実世界のアプリケーションを備えた基本的なビジョンタスクです。
SAM2のリリースにより、ビデオセグメンテーションは大きな進歩を目撃しました。
ただし、特にポイントやボックスなどの単純なプロンプトが与えられた場合、カモフラージュビデオをセグメント化するSAM2の機能は最適ではありません。
問題に対処するために、カモフラージュSAM2(CAMSAM2)を提案します。これにより、SAM2のパラメーターを変更せずにカモフラージュシーンを処理するSAM2の能力が向上します。
具体的には、Decamouflagedトークンを導入して、VCOの機能調整の柔軟性を提供します。
現在のフレームおよび以前のフレームから細粒および高解像度の特徴を最大限に活用するために、それぞれ暗黙のオブジェクト認識融合(IOF)と明示的なオブジェクト認識融合(EOF)モジュールを提案します。
オブジェクトのプロトタイプ生成(OPG)は、以前のフレームの高品質の機能を使用して、有益な詳細を使用して、オブジェクトのプロトタイプを抽象化および記憶するために紹介されます。
私たちのアプローチの有効性を検証するために、広範な実験が行われます。
CAMSAM2はSAM2に無視できる学習可能なパラメーターのみを追加しますが、3つのVCOSデータセットでSAM2を大幅に上回ります。
コードはhttps://github.com/zhoustan/camsam2で入手できます。

要約(オリジナル)

Video camouflaged object segmentation (VCOS), aiming at segmenting camouflaged objects that seamlessly blend into their environment, is a fundamental vision task with various real-world applications. With the release of SAM2, video segmentation has witnessed significant progress. However, SAM2’s capability of segmenting camouflaged videos is suboptimal, especially when given simple prompts such as point and box. To address the problem, we propose Camouflaged SAM2 (CamSAM2), which enhances SAM2’s ability to handle camouflaged scenes without modifying SAM2’s parameters. Specifically, we introduce a decamouflaged token to provide the flexibility of feature adjustment for VCOS. To make full use of fine-grained and high-resolution features from the current frame and previous frames, we propose implicit object-aware fusion (IOF) and explicit object-aware fusion (EOF) modules, respectively. Object prototype generation (OPG) is introduced to abstract and memorize object prototypes with informative details using high-quality features from previous frames. Extensive experiments are conducted to validate the effectiveness of our approach. While CamSAM2 only adds negligible learnable parameters to SAM2, it substantially outperforms SAM2 on three VCOS datasets, especially achieving 12.2 mDice gains with click prompt on MoCA-Mask and 19.6 mDice gains with mask prompt on SUN-SEG-Hard, with Hiera-T as the backbone. The code will be available at https://github.com/zhoustan/CamSAM2.

arxiv情報

著者 Yuli Zhou,Guolei Sun,Yawei Li,Yuqian Fu,Luca Benini,Ender Konukoglu
発行日 2025-03-26 02:14:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク