RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation

要約

Segment Anything Model (SAM) は、画像セグメンテーションにおける優れたパフォーマンスで大きな注目を集めています。
ただし、正確なユーザー対話型プロンプトが必要であり、言語や視覚などのさまざまなモダリティについての理解が限られているため、ビデオ オブジェクト セグメンテーション (RVOS) を参照する能力が不足しています。
この論文では、さまざまなモダリティからのマルチビュー情報と異なるタイムスタンプの連続フレームをオンライン方式で組み込むことにより、RVOS に対する SAM の可能性を探る RefSAM モデルを紹介します。
私たちが提案するアプローチは、参照表現のテキスト埋め込みを疎埋め込みと密埋め込みに投影し、ユーザー対話型プロンプトとして機能する軽量のクロスモーダル MLP を採用することで、元の SAM モデルを適応させてクロスモダリティ学習を強化します。
さらに、きめの細かい密な埋め込みを取得するために、階層的な視覚的意味情報と疎な埋め込みを融合するための階層的密な注意モジュールと、トラック トークンを生成してマスク デコーダに履歴情報を提供する暗黙的な追跡モジュールを導入しました。
さらに、言語と視覚の機能を効果的に調整して融合するために、パラメーター効率の高い調整戦略を採用しています。
包括的なアブレーション研究を通じて、当社のモデルの実用的かつ効果的な設計の選択を実証します。
Ref-Youtu-VOS、Ref-DAVIS17、および 3 つの参照画像セグメンテーション データセットに対して行われた広範な実験により、既存の方法に対する RefSAM モデルの優位性と有効性が検証されました。
コードとモデルは \href{https://github.com/LancasterLi/RefSAM}{github.com/LancasterLi/RefSAM} で公開されます。

要約(オリジナル)

The Segment Anything Model (SAM) has gained significant attention for its impressive performance in image segmentation. However, it lacks proficiency in referring video object segmentation (RVOS) due to the need for precise user-interactive prompts and a limited understanding of different modalities, such as language and vision. This paper presents the RefSAM model, which explores the potential of SAM for RVOS by incorporating multi-view information from diverse modalities and successive frames at different timestamps in an online manner. Our proposed approach adapts the original SAM model to enhance cross-modality learning by employing a lightweight Cross-Modal MLP that projects the text embedding of the referring expression into sparse and dense embeddings, serving as user-interactive prompts. Additionally, we have introduced the hierarchical dense attention module to fuse hierarchical visual semantic information with sparse embeddings in order to obtain fine-grained dense embeddings, and an implicit tracking module to generate a track token and provide historical information for the mask decoder. Furthermore, we employ a parameter-efficient tuning strategy to effectively align and fuse the language and vision features. Through comprehensive ablation studies, we demonstrate the practical and effective design choices of our model. Extensive experiments conducted on Ref-Youtu-VOS, Ref-DAVIS17, and three referring image segmentation datasets validate the superiority and effectiveness of our RefSAM model over existing methods. The code and models will be made publicly at \href{https://github.com/LancasterLi/RefSAM}{github.com/LancasterLi/RefSAM}.

arxiv情報

著者 Yonglin Li,Jing Zhang,Xiao Teng,Long Lan
発行日 2023-10-02 02:32:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク