要約
Segment Anything Model (SAM) は、画像のセグメンテーションに革命をもたらした強力な基礎モデルです。
SAM を手術器具のセグメンテーションに適用する一般的なアプローチは、器具の正確な点またはボックスを特定し、それらをゼロショット方式で SAM のプロンプトとして使用することです。
しかし、この単純なパイプラインには 2 つの問題があることが観察されています。(1) 自然物体と手術器具の間の領域のギャップにより、SAM の汎化が不十分になります。
(2) SAM は、正確なセグメンテーションのために正確なポイントまたはボックスの位置に依存しており、迅速な準備のために広範な手動ガイダンスまたは高性能の専門検出器のいずれかを必要とするため、複雑な多段階のパイプラインが必要になります。
これらの問題に対処するために、我々は、SAM の新しいエンドツーエンドの効率的な調整アプローチである SurgicalSAM を導入し、外科特有の情報と SAM の事前訓練された知識を効果的に統合して一般化を改善します。
具体的には、チューニング用の軽量のプロトタイプベースのクラスプロンプトエンコーダを提案します。これは、クラスプロトタイプからプロンプト埋め込みを直接生成し、明示的なプロンプトの使用を排除して、堅牢性の向上とよりシンプルなパイプラインを実現します。
さらに、手術器具カテゴリ間のクラス間の差異が低いことに対処するために、より正確なクラスプロンプトのためにクラスプロトタイプの識別をさらに強化する、対照的プロトタイプ学習を提案します。
EndoVis2018 と EndoVis2017 の両方のデータセットに対する広範な実験の結果は、SurgicalSAM が少数の調整可能なパラメーターのみを必要としながら、最先端のパフォーマンスを達成することを実証しています。
ソース コードは https://github.com/wenxi-yue/SurgicalSAM で入手できます。
要約(オリジナル)
The Segment Anything Model (SAM) is a powerful foundation model that has revolutionised image segmentation. To apply SAM to surgical instrument segmentation, a common approach is to locate precise points or boxes of instruments and then use them as prompts for SAM in a zero-shot manner. However, we observe two problems with this naive pipeline: (1) the domain gap between natural objects and surgical instruments leads to inferior generalisation of SAM; and (2) SAM relies on precise point or box locations for accurate segmentation, requiring either extensive manual guidance or a well-performing specialist detector for prompt preparation, which leads to a complex multi-stage pipeline. To address these problems, we introduce SurgicalSAM, a novel end-to-end efficient-tuning approach for SAM to effectively integrate surgical-specific information with SAM’s pre-trained knowledge for improved generalisation. Specifically, we propose a lightweight prototype-based class prompt encoder for tuning, which directly generates prompt embeddings from class prototypes and eliminates the use of explicit prompts for improved robustness and a simpler pipeline. In addition, to address the low inter-class variance among surgical instrument categories, we propose contrastive prototype learning, further enhancing the discrimination of the class prototypes for more accurate class prompting. The results of extensive experiments on both EndoVis2018 and EndoVis2017 datasets demonstrate that SurgicalSAM achieves state-of-the-art performance while only requiring a small number of tunable parameters. The source code is available at https://github.com/wenxi-yue/SurgicalSAM.
arxiv情報
著者 | Wenxi Yue,Jing Zhang,Kun Hu,Yong Xia,Jiebo Luo,Zhiyong Wang |
発行日 | 2023-12-21 11:56:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google