RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation

要約

セグメント何でもモデル(Segment Anything Model: SAM)は、画像セグメンテーションにおいて目覚ましい性能を発揮し、大きな注目を集めている。しかし、参照映像オブジェクトセグメンテーション(RVOS)においては、的確なユーザ対話型プロンプトの必要性や、言語や視覚などの異なるモダリティに対する理解が限定的であるため、熟練度が不足している。本論文では、多様なモダリティからのマルチビュー情報と、異なるタイムスタンプの連続フレームをオンライン方式で取り込むことで、RVOSのためのSAMの可能性を探るRefSAMモデルを提案する。我々の提案するアプローチは、クロスモダリティ学習を強化するためにオリジナルのSAMモデルを適応させるもので、軽量なクロスモーダルMLPを採用することで、参照表現のテキスト埋め込みを疎埋め込みと密埋め込みに投影し、ユーザー対話型のプロンプトとして機能させる。さらに、階層的な視覚的意味情報をスパース埋め込みと融合させ、きめ細かい密な埋め込みを得るための階層的密な注意モジュールと、追跡トークンを生成し、マスクデコーダに履歴情報を提供するための暗黙的追跡モジュールを導入した。さらに、言語と視覚の特徴を効果的に整合・融合させるために、パラメータ効率の良いチューニング戦略を採用している。包括的なアブレーション研究を通じて、本モデルの実用的かつ効果的な設計選択を実証する。Refer-Youtube-VOS、Ref-DAVIS17、および3つの参照画像セグメンテーションデータセットに対して行った広範な実験により、既存の手法に対する我々のRefSAMモデルの優位性と有効性を検証する。

要約(オリジナル)

The Segment Anything Model (SAM) has gained significant attention for its impressive performance in image segmentation. However, it lacks proficiency in referring video object segmentation (RVOS) due to the need for precise user-interactive prompts and a limited understanding of different modalities, such as language and vision. This paper presents the RefSAM model, which explores the potential of SAM for RVOS by incorporating multi-view information from diverse modalities and successive frames at different timestamps in an online manner. Our proposed approach adapts the original SAM model to enhance cross-modality learning by employing a lightweight Cross-Modal MLP that projects the text embedding of the referring expression into sparse and dense embeddings, serving as user-interactive prompts. Additionally, we have introduced the hierarchical dense attention module to fuse hierarchical visual semantic information with sparse embeddings to obtain fine-grained dense embeddings, and an implicit tracking module to generate a tracking token and provide historical information for the mask decoder. Furthermore, we employ a parameter-efficient tuning strategy to align and fuse the language and vision features effectively. Through comprehensive ablation studies, we demonstrate our model’s practical and effective design choices. Extensive experiments conducted on Refer-Youtube-VOS, Ref-DAVIS17, and three referring image segmentation datasets validate the superiority and effectiveness of our RefSAM model over existing methods.

arxiv情報

著者 Yonglin Li,Jing Zhang,Xiao Teng,Long Lan,Xinwang Liu
発行日 2024-09-03 07:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク