Stable Segment Anything Model

要約

Segment Anything Model (SAM) は、高品質のプロンプトを提供することで、優れたプロンプト可能なセグメンテーションを実現しますが、多くの場合、指定には優れたスキルが必要です。
SAM をカジュアルなプロンプトに対して堅牢にするために、この論文では、プロンプトの品質の多様な範囲、特に不正確な境界ボックスと不十分なポイントにわたる SAM のセグメンテーションの安定性に関する最初の包括的な分析を示します。
私たちの重要な発見は、このような低品質のプロンプトが与えられると、SAM のマスク デコーダが背景に偏った画像特徴や特定のオブジェクト部分に限定された画像特徴をアクティブにする傾向があることを明らかにしました。
この問題を軽減するために、私たちの重要なアイデアは、元の SAM モデルのアーキテクチャと重みを変更せずに、画像特徴のサンプリング位置と振幅を調整することで SAM のマスク アテンションのみを調整することで構成されています。
その結果、当社の変形可能なサンプリング プラグイン (DSP) により、SAM はデータ駆動型の方法で、プロンプトされたターゲット領域に適応的に注意を移すことができ、当社の効果的なロバスト トレーニング戦略 (RTS) によって促進されます。
推論中に、入力プロンプトの品質に応じて、変形可能なグリッド サンプリング モードと通常のグリッド サンプリング モードの間で SAM を切り替えるダイナミック ルーティング プラグイン (DRP) が提案されます。
したがって、Stable-SAM と呼ばれる私たちのソリューションには、いくつかの利点があります。1) 幅広いプロンプト品質にわたって SAM のセグメンテーションの安定性が向上し、2) SAM の強力なプロンプト可能なセグメンテーションの効率と汎用性を維持し、3) 最小限の学習可能なパラメータ (0.08 M)
迅速な適応(1 トレーニング エポックまで)。
複数のデータセットにわたる広範な実験により、私たちのアプローチの有効性と利点が検証され、Stable-SAM があらゆるものをセグメント化するためのより堅牢なソリューションであることが強調されています。
コードは承認され次第公開されます。
https://github.com/fanq15/Stable-SAM

要約(オリジナル)

The Segment Anything Model (SAM) achieves remarkable promptable segmentation given high-quality prompts which, however, often require good skills to specify. To make SAM robust to casual prompts, this paper presents the first comprehensive analysis on SAM’s segmentation stability across a diverse spectrum of prompt qualities, notably imprecise bounding boxes and insufficient points. Our key finding reveals that given such low-quality prompts, SAM’s mask decoder tends to activate image features that are biased towards the background or confined to specific object parts. To mitigate this issue, our key idea consists of calibrating solely SAM’s mask attention by adjusting the sampling locations and amplitudes of image features, while the original SAM model architecture and weights remain unchanged. Consequently, our deformable sampling plugin (DSP) enables SAM to adaptively shift attention to the prompted target regions in a data-driven manner, facilitated by our effective robust training strategy (RTS). During inference, dynamic routing plugin (DRP) is proposed that toggles SAM between the deformable and regular grid sampling modes, conditioned on the input prompt quality. Thus, our solution, termed Stable-SAM, offers several advantages: 1) improved SAM’s segmentation stability across a wide range of prompt qualities, while 2) retaining SAM’s powerful promptable segmentation efficiency and generality, with 3) minimal learnable parameters (0.08 M) and fast adaptation (by 1 training epoch). Extensive experiments across multiple datasets validate the effectiveness and advantages of our approach, underscoring Stable-SAM as a more robust solution for segmenting anything. Codes will be released upon acceptance. https://github.com/fanq15/Stable-SAM

arxiv情報

著者 Qi Fan,Xin Tao,Lei Ke,Mingqiao Ye,Yuan Zhang,Pengfei Wan,Zhongyuan Wang,Yu-Wing Tai,Chi-Keung Tang
発行日 2023-12-05 15:57:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク