BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts

要約

セグメンテーションはコンピュータービジョンの基本的なタスクであり、柔軟性のために迅速な駆動型の方法が顕著になります。
セグメントのあらゆるモデル(SAM)はポイントプロムプトされたセグメンテーションで優れていますが、テキストベースのモデルは、多くの場合、BEIT-3のような強力なマルチモーダルエンコーダーを活用し、豊富なセマンティック理解を提供します。
ただし、これらの補完的なモダリティを効果的に組み合わせることは課題です。
このペーパーでは、明示的な選択メカニズムを採用した新しいデュアルモーダルプロンプトセグメンテーションフレームワークであるBiprompt-Samを紹介します。
SAMの単一ポイントプロンプトから複数のマスク候補を生成する能力を活用し、テキストガイドマスク(eVF-SAMを介してBEIT-3を介して生成された)を使用して、ユニオン(IOU)の交差によって測定されるポイント生成マスクを選択します。
このアプローチは、専門家(MOE)の単純化された混合物として解釈可能であり、複雑なモデルの変更なしに空間精度とセマンティックのコンテキストを効果的に融合します。
特に、私たちの方法は、インスタンスごとに単一のポイントプロンプトのみを使用して、Endovis17 Medical Dataset(89.55%MDICE、81.46%MIOU)で強力なゼロショットパフォーマンスを実現します。
これにより、境界ボックスと比較して注釈の負担が大幅に削減され、実用的な臨床ワークフローとより適切に整合し、ドメイン固有のトレーニングなしの方法の有効性が実証されます。
RefCocoシリーズでは、Biprompt-SAMは87.1%、86.5%、および85.8%IOUを達成し、既存のアプローチを大幅に上回りました。
実験では、Biprompt-SAMが空間精度とセマンティックの分解の両方を必要とするシナリオで優れており、マルチモーダルプロンプト融合に関するシンプルで効果的で解釈可能な視点を提供します。

要約(オリジナル)

Segmentation is a fundamental task in computer vision, with prompt-driven methods gaining prominence due to their flexibility. The Segment Anything Model (SAM) excels at point-prompted segmentation, while text-based models, often leveraging powerful multimodal encoders like BEIT-3, provide rich semantic understanding. However, effectively combining these complementary modalities remains a challenge. This paper introduces BiPrompt-SAM, a novel dual-modal prompt segmentation framework employing an explicit selection mechanism. We leverage SAM’s ability to generate multiple mask candidates from a single point prompt and use a text-guided mask (generated via EVF-SAM with BEIT-3) to select the point-generated mask that best aligns spatially, measured by Intersection over Union (IoU). This approach, interpretable as a simplified Mixture of Experts (MoE), effectively fuses spatial precision and semantic context without complex model modifications. Notably, our method achieves strong zero-shot performance on the Endovis17 medical dataset (89.55% mDice, 81.46% mIoU) using only a single point prompt per instance. This significantly reduces annotation burden compared to bounding boxes and aligns better with practical clinical workflows, demonstrating the method’s effectiveness without domain-specific training. On the RefCOCO series, BiPrompt-SAM attained 87.1%, 86.5%, and 85.8% IoU, significantly outperforming existing approaches. Experiments show BiPrompt-SAM excels in scenarios requiring both spatial accuracy and semantic disambiguation, offering a simple, effective, and interpretable perspective on multi-modal prompt fusion.

arxiv情報

著者 Suzhe Xu,Jialin Peng,Chengyuan Zhang
発行日 2025-04-30 14:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク