S4M: Segment Anything with 4 Extreme Points

要約

セグメントAnything Model(SAM)は、オープンセットのインタラクティブな画像セグメンテーションに革命をもたらし、医療ドメインの多数のアダプターを刺激しました。
ただし、SAMは主に、ポイントやバウンドボックスなどのスパースプロンプトに依存しています。これは、特に内視鏡画像では、正確なローカリゼーションが重要であり、既存のプロンプトがオブジェクトの境界を効果的にキャプチャするのに苦労している内視鏡画像で、細粒のインスタンスセグメンテーションの最適ではない場合があります。
これに対処するために、S4M(4つの極端なポイントを持つすべてのセグメント)を導入します。これは、極端なポイント(インスタンスのトップ、ボトム、左、および右ポイント)を活用することでSAMを増強します。
これらのポイントは、ボックスプロンプトに代わるより速く、構造化された代替品を識別し、提供するために直感的です。
ただし、サムがセマンティックな役割を解釈できないため、極端なポイントのna \ ‘iveの使用はパフォーマンスを低下させます。
これを解決するために、専用の学習可能な埋め込みを導入し、モデルが極端なポイントと一般的なフリーフォームポイントとそれらの空間的関係に関するより良い理由を区別できるようにします。
さらに、Canvasモジュールを介して補助トレーニングタスクを提案します。これは、粗いインスタンスマスクを予測するために、視力入力なしでプロンプトのみで動作します。
これにより、モデルが極端な点とマスク分布の関係を内面化することを促進し、より堅牢なセグメンテーションにつながります。
S4Mは、3つの内視鏡手術データセットで他のSAMベースのアプローチを上回り、複雑なシナリオでその有効性を示しています。
最後に、外科的内視鏡ビデオに関する人間の注釈研究を通じてアプローチを検証し、極端なポイントが境界ボックスよりも獲得するのが速いことを確認します。

要約(オリジナル)

The Segment Anything Model (SAM) has revolutionized open-set interactive image segmentation, inspiring numerous adapters for the medical domain. However, SAM primarily relies on sparse prompts such as point or bounding box, which may be suboptimal for fine-grained instance segmentation, particularly in endoscopic imagery, where precise localization is critical and existing prompts struggle to capture object boundaries effectively. To address this, we introduce S4M (Segment Anything with 4 Extreme Points), which augments SAM by leveraging extreme points — the top-, bottom-, left-, and right-most points of an instance — prompts. These points are intuitive to identify and provide a faster, structured alternative to box prompts. However, a na\’ive use of extreme points degrades performance, due to SAM’s inability to interpret their semantic roles. To resolve this, we introduce dedicated learnable embeddings, enabling the model to distinguish extreme points from generic free-form points and better reason about their spatial relationships. We further propose an auxiliary training task through the Canvas module, which operates solely on prompts — without vision input — to predict a coarse instance mask. This encourages the model to internalize the relationship between extreme points and mask distributions, leading to more robust segmentation. S4M outperforms other SAM-based approaches on three endoscopic surgical datasets, demonstrating its effectiveness in complex scenarios. Finally, we validate our approach through a human annotation study on surgical endoscopic videos, confirming that extreme points are faster to acquire than bounding boxes.

arxiv情報

著者 Adrien Meyer,Lorenzo Arboit,Giuseppe Massimiani,Francesco Brucchi,Luca Emanuele Amodio,Didier Mutter,Nicolas Padoy
発行日 2025-03-07 16:02:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク