MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation

要約

参照ビデオオブジェクトセグメンテーション(RVO)は、マルチモーダル情報と時間的ダイナミクスの知覚の統合が必要なテキストの説明に従って、ビデオのオブジェクトをセグメント化することを目的としています。
セグメントモデル2(SAM 2)は、さまざまなビデオセグメンテーションタスクにわたって大きな効果を示しています。
ただし、オフラインRVOへの適用は、テキストの効果的なプロンプトへの翻訳とグローバルなコンテキストの認識の欠如によって異議を唱えられます。
この論文では、これらの課題に対処するために、MPG-SAM 2と呼ばれる新しいRVOSフレームワークを提案します。
具体的には、MPG-SAM 2は統一されたマルチモーダルエンコーダーを採用して、ビデオとテキストの機能を共同でエンコードし、マルチモーダルクラスのトークンとともに、意味的に整列したビデオとテキストの埋め込みを生成します。
マスクの事前ジェネレーターは、ビデオ埋め込みとクラストークンを利用して、ターゲットオブジェクトとグローバルコンテキストの擬似マスクを作成します。
これらのマスクは、サム2の正確なプロンプトを生成するためのスパースプロンプトとしてマルチモーダルクラストークンとともに、密なプロンプトとしてプロンプトエンコーダーに供給されます。
2ピクセルレベルとオブジェクトレベルの両方でターゲットオブジェクトのグローバルおよび履歴情報を集約し、ターゲット表現と時間的一貫性を高めます。
いくつかのRVOSベンチマークでの広範な実験は、MPG-SAM 2の優位性と提案されたモジュールの有効性を示しています。

要約(オリジナル)

Referring video object segmentation (RVOS) aims to segment objects in a video according to textual descriptions, which requires the integration of multimodal information and temporal dynamics perception. The Segment Anything Model 2 (SAM 2) has shown great effectiveness across various video segmentation tasks. However, its application to offline RVOS is challenged by the translation of the text into effective prompts and a lack of global context awareness. In this paper, we propose a novel RVOS framework, termed MPG-SAM 2, to address these challenges. Specifically, MPG-SAM 2 employs a unified multimodal encoder to jointly encode video and textual features, generating semantically aligned video and text embeddings, along with multimodal class tokens. A mask prior generator utilizes the video embeddings and class tokens to create pseudo masks of target objects and global context. These masks are fed into the prompt encoder as dense prompts along with multimodal class tokens as sparse prompts to generate accurate prompts for SAM 2. To provide the online SAM 2 with a global view, we introduce a hierarchical global-historical aggregator, which allows SAM 2 to aggregate global and historical information of target objects at both pixel and object levels, enhancing the target representation and temporal consistency. Extensive experiments on several RVOS benchmarks demonstrate the superiority of MPG-SAM 2 and the effectiveness of our proposed modules.

arxiv情報

著者 Fu Rong,Meng Lan,Qian Zhang,Lefei Zhang
発行日 2025-01-23 13:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク