VRP-SAM: SAM with Visual Reference Prompt

要約

この論文では、セグメント エニシング モデル (SAM) が注釈付きの参照画像をセグメンテーションのプロンプトとして利用できるようにし、VRP-SAM モデルを作成する新しい Visual Reference Prompt (VRP) エンコーダーを提案します。
本質的に、VRP-SAM は、注釈付きの参照画像を利用して、特定のオブジェクトを理解し、ターゲット画像内の特定のオブジェクトのセグメンテーションを実行できます。
VRP エンコーダは、\textbf{point}、\textbf{box}、\textbf{scribble}、\textbf{mask} など、参照画像のさまざまな注釈形式をサポートできることに注意してください。
VRP-SAM は、SAM 本来の強みを維持しながら汎用性と適用性を拡張することにより、SAM フレームワーク内でブレークスルーを達成し、ユーザーの使いやすさを向上させます。
VRP-SAM の汎化能力を強化するために、VRP エンコーダーはメタ学習戦略を採用します。
VRP-SAM の有効性を検証するために、Pascal データセットと COCO データセットについて広範な実証研究を実施しました。
注目すべきことに、VRP-SAM は最小限の学習可能なパラメータで視覚参照セグメンテーションにおいて最先端のパフォーマンスを達成しました。
さらに、VRP-SAM は強力な一般化機能を示し、目に見えないオブジェクトのセグメンテーションを実行し、クロスドメイン セグメンテーションを可能にします。

要約(オリジナル)

In this paper, we propose a novel Visual Reference Prompt (VRP) encoder that empowers the Segment Anything Model (SAM) to utilize annotated reference images as prompts for segmentation, creating the VRP-SAM model. In essence, VRP-SAM can utilize annotated reference images to comprehend specific objects and perform segmentation of specific objects in target image. It is note that the VRP encoder can support a variety of annotation formats for reference images, including \textbf{point}, \textbf{box}, \textbf{scribble}, and \textbf{mask}. VRP-SAM achieves a breakthrough within the SAM framework by extending its versatility and applicability while preserving SAM’s inherent strengths, thus enhancing user-friendliness. To enhance the generalization ability of VRP-SAM, the VRP encoder adopts a meta-learning strategy. To validate the effectiveness of VRP-SAM, we conducted extensive empirical studies on the Pascal and COCO datasets. Remarkably, VRP-SAM achieved state-of-the-art performance in visual reference segmentation with minimal learnable parameters. Furthermore, VRP-SAM demonstrates strong generalization capabilities, allowing it to perform segmentation of unseen objects and enabling cross-domain segmentation.

arxiv情報

著者 Yanpeng Sun,Jiahui Chen,Shan Zhang,Xinyu Zhang,Qiang Chen,Gang Zhang,Errui Ding,Jingdong Wang,Zechao Li
発行日 2024-02-27 17:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク