Slide-SAM: Medical SAM Meets Sliding Window

要約

Segment Anything Model (SAM) は、自然画像の 2 次元画像セグメンテーションにおいて顕著な成功を収めました。
ただし、医療画像と自然画像の間には大きなギャップがあるため、医療画像のセグメンテーション タスクへの直接の適用が妨げられています。
特に 3D 医療画像では、SAM はスライス間の文脈上の関係を学習するのに苦労し、実際の適用性が制限されます。
さらに、2D SAM を 3D 画像に適用するには、ボリューム全体にプロンプ​​トを表示する必要があり、時間とラベルがかかります。
これらの問題に対処するために、我々は 3 つの隣接するスライスのスタックを予測ウィンドウとして扱う Slide-SAM を提案します。
まず、3D ボリュームから 3 つのスライスを取得し、中央スライス上のポイントまたはバウンディング ボックス プロンプトを入力として取得し、3 つすべてのスライスのセグメンテーション マスクを予測します。
その後、上部と下部のスライスのマスクを使用して、隣接するスライスに対する新しいプロンプトが生成されます。
最後に、ボリューム全体にわたって予測ウィンドウを前後にスライドさせることで、段階的な予測を実現できます。
私たちのモデルは、複数の公的および民間の医療データセットでトレーニングされており、最小限のプロンプトを使用した広範な 3D セグメンテーション実験を通じてその有効性を実証しています。
コードは \url{https://github.com/Curli-quan/Slide-SAM} で入手できます。

要約(オリジナル)

The Segment Anything Model (SAM) has achieved a notable success in two-dimensional image segmentation in natural images. However, the substantial gap between medical and natural images hinders its direct application to medical image segmentation tasks. Particularly in 3D medical images, SAM struggles to learn contextual relationships between slices, limiting its practical applicability. Moreover, applying 2D SAM to 3D images requires prompting the entire volume, which is time- and label-consuming. To address these problems, we propose Slide-SAM, which treats a stack of three adjacent slices as a prediction window. It firstly takes three slices from a 3D volume and point- or bounding box prompts on the central slice as inputs to predict segmentation masks for all three slices. Subsequently, the masks of the top and bottom slices are then used to generate new prompts for adjacent slices. Finally, step-wise prediction can be achieved by sliding the prediction window forward or backward through the entire volume. Our model is trained on multiple public and private medical datasets and demonstrates its effectiveness through extensive 3D segmetnation experiments, with the help of minimal prompts. Code is available at \url{https://github.com/Curli-quan/Slide-SAM}.

arxiv情報

著者 Quan Quan,Fenghe Tang,Zikang Xu,Heqin Zhu,S. Kevin Zhou
発行日 2024-04-16 14:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク