要約
単一のラベル付き例を考えると、コンテキスト内セグメンテーションは、対応するオブジェクトをセグメント化することを目的としています。
少数のショット学習のワンショットセグメンテーションとして知られているこの設定では、セグメンテーションモデルの一般化能力を調査し、シーンの理解や画像/ビデオ編集など、さまざまなビジョンタスクに適用されています。
最近のセグメントでは、モデルはインタラクティブなセグメンテーションで最先端の結果を達成しましたが、これらのアプローチはコンテキスト内セグメンテーションに直接適用できません。
この作業では、画像とビデオの両方のコンテキスト内セグメンテーションにSAMとSAM2を適応させるためのプロンプトチューニングに基づいて、デュアル一貫性SAM(DC-SAM)メソッドを提案します。
私たちの重要な洞察は、高品質の視覚プロンプトを提供することにより、セグメンテーションにおけるSAMのプロンプトエンコーダーの機能を強化することです。
事前にマスクを生成するとき、SAM機能を融合して、プロンプトエンコーダーをより適切に整列させます。
次に、融合機能と初期の視覚プロンプトに関するサイクル一貫性のある相互参加を設計します。
次に、プロンプトエンコーダーの識別的正と負のプロンプトを使用して、デュアルブランチ設計が提供されます。
さらに、提案された二重の一貫性方法をマスクチューブに採用するために、シンプルなマスクチューブトレーニング戦略を設計します。
提案されているDC-SAMは主に画像用に設計されていますが、SAM2のサポートでビデオドメインにシームレスに拡張できます。
ビデオドメインにコンテキスト内セグメンテーションがないことを考えると、モデルのコンテキスト内機能をよりよく評価するために、コンテキスト内のビデオオブジェクトセグメンテーション(IC-VO)という名前の既存のビデオセグメンテーションデータセットから最初のベンチマークを手動でキュレートして構築します。
広範な実験は、私たちの方法が、PASCAL-5IでCoCO-20I、73.0(+1.1)MIOUで55.5(+1.4)MIOUを達成し、提案されたIC-VOSベンチマークで71.52のJ&Fスコアを達成することを示しています。
ソースコードとベンチマークは、https://github.com/zaplm/dc-samで入手できます。
要約(オリジナル)
Given a single labeled example, in-context segmentation aims to segment corresponding objects. This setting, known as one-shot segmentation in few-shot learning, explores the segmentation model’s generalization ability and has been applied to various vision tasks, including scene understanding and image/video editing. While recent Segment Anything Models have achieved state-of-the-art results in interactive segmentation, these approaches are not directly applicable to in-context segmentation. In this work, we propose the Dual Consistency SAM (DC-SAM) method based on prompt-tuning to adapt SAM and SAM2 for in-context segmentation of both images and videos. Our key insights are to enhance the features of the SAM’s prompt encoder in segmentation by providing high-quality visual prompts. When generating a mask prior, we fuse the SAM features to better align the prompt encoder. Then, we design a cycle-consistent cross-attention on fused features and initial visual prompts. Next, a dual-branch design is provided by using the discriminative positive and negative prompts in the prompt encoder. Furthermore, we design a simple mask-tube training strategy to adopt our proposed dual consistency method into the mask tube. Although the proposed DC-SAM is primarily designed for images, it can be seamlessly extended to the video domain with the support of SAM2. Given the absence of in-context segmentation in the video domain, we manually curate and construct the first benchmark from existing video segmentation datasets, named In-Context Video Object Segmentation (IC-VOS), to better assess the in-context capability of the model. Extensive experiments demonstrate that our method achieves 55.5 (+1.4) mIoU on COCO-20i, 73.0 (+1.1) mIoU on PASCAL-5i, and a J&F score of 71.52 on the proposed IC-VOS benchmark. Our source code and benchmark are available at https://github.com/zaplm/DC-SAM.
arxiv情報
著者 | Mengshi Qi,Pengfei Zhu,Xiangtai Li,Xiaoyang Bi,Lu Qi,Huadong Ma,Ming-Hsuan Yang |
発行日 | 2025-04-17 15:34:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google