Part to Whole: Collaborative Prompting for Surgical Instrument Segmentation

要約

Segment Anything Model (SAM) のような基盤モデルは、汎用オブジェクトのセグメンテーションにおいて有望であることが証明されています。
ただし、SAM を手術器具のセグメンテーションに直接適用すると、重要な課題が生じます。
まず、SAM はフレームごとのポイントまたはボックスのプロンプトに依存しているため、外科医とコンピューターの対話が複雑になります。
また、SAM は、事前トレーニングでの手術データが不十分であり、さまざまな手術器具の複雑な構造と詳細が細かいため、手術器具のセグメント化では最適とは言えないパフォーマンスを示します。
これらの課題に対処するために、この論文では、テキストプロンプト可能な手術器具のセグメンテーションを調査し、手術器具の構造の知識と SAM の一般的なセグメンテーションの知識を統合する新しい効率的な調整アプローチである SP-SAM (SurgicalPart-SAM) を提案します。
具体的には、(1) 楽器を細かいパーツに分解するテキスト形式「[楽器カテゴリ名] の [パーツ名]」の共同プロンプトを提案することでこれを実現します。
(2) テキストプロンプトを視覚的な埋め込みと組み合わせて、識別可能なパーツレベルの表現にエンコードするクロスモーダルプロンプトエンコーダ。
(3) 正確な楽器のセグメンテーションのために、部分レベルの表現を全体に選択的に組み立てる部分から全体への選択的融合および階層的デコード戦略。
これらに基づいて構築された SP-SAM は、手術器具の構造を理解し、さまざまなカテゴリを区別するためのより優れた機能を獲得します。
EndoVis2018 と EndoVis2017 データセットの両方に対する広範な実験により、最小限の調整可能なパラメーターで SP-SAM の最先端のパフォーマンスが実証されました。
コードは https://github.com/wenxi-yue/SurgicalPart-SAM にあります。

要約(オリジナル)

Foundation models like the Segment Anything Model (SAM) have demonstrated promise in generic object segmentation. However, directly applying SAM to surgical instrument segmentation presents key challenges. First, SAM relies on per-frame point-or-box prompts which complicate surgeon-computer interaction. Also, SAM yields suboptimal performance on segmenting surgical instruments, owing to insufficient surgical data in its pre-training as well as the complex structure and fine-grained details of various surgical instruments. To address these challenges, in this paper, we investigate text promptable surgical instrument segmentation and propose SP-SAM (SurgicalPart-SAM), a novel efficient-tuning approach that integrates surgical instrument structure knowledge with the generic segmentation knowledge of SAM. Specifically, we achieve this by proposing (1) collaborative prompts in the text form ‘[part name] of [instrument category name]’ that decompose instruments into fine-grained parts; (2) a Cross-Modal Prompt Encoder that encodes text prompts jointly with visual embeddings into discriminative part-level representations; and (3) a Part-to-Whole Selective Fusion and a Hierarchical Decoding strategy that selectively assemble the part-level representations into a whole for accurate instrument segmentation. Built upon them, SP-SAM acquires a better capability to comprehend surgical instrument structures and distinguish between various categories. Extensive experiments on both the EndoVis2018 and EndoVis2017 datasets demonstrate SP-SAM’s state-of-the-art performance with minimal tunable parameters. Code is at https://github.com/wenxi-yue/SurgicalPart-SAM.

arxiv情報

著者 Wenxi Yue,Jing Zhang,Kun Hu,Qiuxia Wu,Zongyuan Ge,Yong Xia,Jiebo Luo,Zhiyong Wang
発行日 2023-12-22 07:17:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク