BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts

要約

セグメンテーションはコンピュータービジョンの基本的なタスクであり、柔軟性のために迅速な駆動型の方法が顕著になります。
最近のAnyny Anything Model(SAM)は、強力なポイントプロンプトセグメンテーション機能を実証していますが、テキストベースのセグメンテーションモデルは豊富なセマンティック理解を提供します。
ただし、既存のアプローチでは、最適なセグメンテーションパフォーマンスのためにこれらの補完的なモダリティを効果的に組み合わせる方法を探求することはめったにありません。
このペーパーでは、明示的な選択メカニズムを介してポイントとテキストプロンプトの利点を融合する新しいデュアルモーダルプロンプトセグメンテーションフレームワークであるBiprompt-Samを紹介します。
具体的には、複数のマスク候補を生成するSAMの固有の機能を活用し、テキストプロンプトからセマンティックガイダンスマスクと組み合わせて、類似性メトリックに基づいて最も適切な候補を明示的に選択します。
このアプローチは、ポイントとテキストモジュールが明確な「専門家」として機能する専門家(MOE)システムの単純化された混合物として見ることができ、類似性のスコアリングは基本的な「ゲーティングネットワーク」として機能します。
Endovis17 Medical DatasetとRefCocoシリーズの自然画像データセットの両方で広範な評価を実施しました。
Endovis17では、Biprompt-SAMは89.55 \%mdiceと81.46 \%miouを達成しました。これは、最先端の専門的な医療セグメンテーションモデルに匹敵します。
RefCocoシリーズのデータ​​セットでは、この方法で87.1 \%、86.5 \%、および85.8 \%IOUが達成され、既存のアプローチを大幅に上回りました。
実験は、明示的なデュアル選択法が、ポイントプロンプトの空間精度と、特に意味的に複雑なオブジェクト、複数の同様のオブジェクト、および部分閉塞を含むシナリオで優れているテキストプロンプトのセマンティックリッチネスと効果的に組み合わせることを示しています。
Biprompt-SAMは、シンプルでありながら効果的な実装を提供するだけでなく、マルチモーダルプロンプト融合に関する新しい視点も提供します。

要約(オリジナル)

Segmentation is a fundamental task in computer vision, with prompt-driven methods gaining prominence due to their flexibility. The recent Segment Anything Model (SAM) has demonstrated powerful point-prompt segmentation capabilities, while text-based segmentation models offer rich semantic understanding. However, existing approaches rarely explore how to effectively combine these complementary modalities for optimal segmentation performance. This paper presents BiPrompt-SAM, a novel dual-modal prompt segmentation framework that fuses the advantages of point and text prompts through an explicit selection mechanism. Specifically, we leverage SAM’s inherent ability to generate multiple mask candidates, combined with a semantic guidance mask from text prompts, and explicitly select the most suitable candidate based on similarity metrics. This approach can be viewed as a simplified Mixture of Experts (MoE) system, where the point and text modules act as distinct ‘experts,’ and the similarity scoring serves as a rudimentary ‘gating network.’ We conducted extensive evaluations on both the Endovis17 medical dataset and RefCOCO series natural image datasets. On Endovis17, BiPrompt-SAM achieved 89.55\% mDice and 81.46\% mIoU, comparable to state-of-the-art specialized medical segmentation models. On the RefCOCO series datasets, our method attained 87.1\%, 86.5\%, and 85.8\% IoU, significantly outperforming existing approaches. Experiments demonstrate that our explicit dual-selection method effectively combines the spatial precision of point prompts with the semantic richness of text prompts, particularly excelling in scenarios involving semantically complex objects, multiple similar objects, and partial occlusions. BiPrompt-SAM not only provides a simple yet effective implementation but also offers a new perspective on multi-modal prompt fusion.

arxiv情報

著者 Suzhe Xu,Jialin Peng,Chengyuan Zhang
発行日 2025-03-25 15:38:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク