SAM Meets Robotic Surgery: An Empirical Study on Generalization, Robustness and Adaptation

要約

Segment Anything Model (SAM) は、セマンティック セグメンテーションの基本モデルとして機能し、幅広いダウンストリーム シナリオにわたって優れた一般化機能を実証します。
この実証研究では、ロボット手術の分野における SAM の堅牢性とゼロショットの汎用性を検証します。
プロンプト付きおよびプロンプトなしの状況、バウンディング ボックスとポイントベースのプロンプト アプローチ、および 5 つの重大度レベルでの破損や混乱を一般化する機能など、さまざまなシナリオを包括的に調査します。
さらに、SAM のパフォーマンスを最先端の教師付きモデルと比較します。
私たちは、MICCAI EndoVis 2017 および 2018 の課題からの 2 つの有名なロボット機器セグメンテーション データセットを使用してすべての実験を実行します。
私たちの広範な評価の結果、SAM はバウンディングボックスプロンプトで顕著なゼロショット汎化能力を示しますが、ポイントベースのプロンプトとプロンプトなしの設定で機器全体をセグメント化するのに苦労していることが明らかになりました。
さらに、定性的な数値は、モデルが器具マスクの特定の部分 (顎、手首など) を予測できなかったか、同じ境界ボックス内または点と重複する器具のシナリオで器具の一部が間違ったクラスとして予測されたかのいずれかを示しています。
-ベースのプロンプト。
実際、SAM は、血液、反射、ぼやけ、影の存在を特徴とする複雑な手術シナリオで器具を識別するのに苦労しています。
さらに、SAM は、さまざまな形式のデータ破損にさらされた場合に高いパフォーマンスを維持するには堅牢性が不十分です。
また、低ランク適応 (LoRA) を使用して SAM を微調整することも試み、プロンプトなしでクラスごとのマスク予測の機能を示す SurgicalSAM を提案します。
したがって、ドメイン固有の微調整をさらに行わないと、SAM は下流の外科タスクに対応できないと主張できます。

要約(オリジナル)

The Segment Anything Model (SAM) serves as a fundamental model for semantic segmentation and demonstrates remarkable generalization capabilities across a wide range of downstream scenarios. In this empirical study, we examine SAM’s robustness and zero-shot generalizability in the field of robotic surgery. We comprehensively explore different scenarios, including prompted and unprompted situations, bounding box and points-based prompt approaches, as well as the ability to generalize under corruptions and perturbations at five severity levels. Additionally, we compare the performance of SAM with state-of-the-art supervised models. We conduct all the experiments with two well-known robotic instrument segmentation datasets from MICCAI EndoVis 2017 and 2018 challenges. Our extensive evaluation results reveal that although SAM shows remarkable zero-shot generalization ability with bounding box prompts, it struggles to segment the whole instrument with point-based prompts and unprompted settings. Furthermore, our qualitative figures demonstrate that the model either failed to predict certain parts of the instrument mask (e.g., jaws, wrist) or predicted parts of the instrument as wrong classes in the scenario of overlapping instruments within the same bounding box or with the point-based prompt. In fact, SAM struggles to identify instruments in complex surgical scenarios characterized by the presence of blood, reflection, blur, and shade. Additionally, SAM is insufficiently robust to maintain high performance when subjected to various forms of data corruption. We also attempt to fine-tune SAM using Low-rank Adaptation (LoRA) and propose SurgicalSAM, which shows the capability in class-wise mask prediction without prompt. Therefore, we can argue that, without further domain-specific fine-tuning, SAM is not ready for downstream surgical tasks.

arxiv情報

著者 An Wang,Mobarakol Islam,Mengya Xu,Yang Zhang,Hongliang Ren
発行日 2023-08-14 14:09:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク