Zero-shot capability of SAM-family models for bone segmentation in CT scans

要約

Segment Anything Model (SAM) および同様のモデルは、画像およびビデオのセグメンテーション用のプロンプト可能な基礎モデル (FM) のファミリーを構築します。
対象のオブジェクトは、境界ボックスや点などのプロンプトを使用して識別されます。
これらの FM が医療画像セグメンテーションの一部になると、臨床現場でその長所と短所を評価するために広範な評価研究が必要になります。
パフォーマンスは選択したプロンプト戦略に大きく依存するため、さまざまなプロンプト手法を調査して、医療画像のセグメンテーションで効果的に使用できる最適なガイドラインを定義することが重要です。
現在、CT スキャンでの骨のセグメンテーションに特化した専用の評価研究は存在せず、このタスクのパフォーマンスの理解にはギャップが残っています。
したがって、境界ボックス、点、およびその組み合わせで構成される非反復的な「最適な」プロンプト戦略を使用して、3 つの異なる骨格領域での骨 CT セグメンテーションに対する SAM ファミリー モデルのゼロショット機能をテストします。
私たちの結果は、最適な設定はモデルのタイプとサイズ、データセットの特性、最適化の目的によって異なることを示しています。
全体として、SAM と SAM2 では、オブジェクトのすべてのコンポーネントの中心点と境界ボックスを組み合わせてプロンプトを表示し、テストされたすべての設定で最良の結果が得られました。
結果は複数の要因に依存するため、非対話型の「最適な」プロンプトを使用した 2D プロンプトで情報に基づいた意思決定を行うためのガイドラインを提供します。

要約(オリジナル)

The Segment Anything Model (SAM) and similar models build a family of promptable foundation models (FMs) for image and video segmentation. The object of interest is identified using prompts, such as bounding boxes or points. With these FMs becoming part of medical image segmentation, extensive evaluation studies are required to assess their strengths and weaknesses in clinical setting. Since the performance is highly dependent on the chosen prompting strategy, it is important to investigate different prompting techniques to define optimal guidelines that ensure effective use in medical image segmentation. Currently, no dedicated evaluation studies exist specifically for bone segmentation in CT scans, leaving a gap in understanding the performance for this task. Thus, we use non-iterative, “optimal” prompting strategies composed of bounding box, points and combinations to test the zero-shot capability of SAM-family models for bone CT segmentation on three different skeletal regions. Our results show that the best settings depend on the model type and size, dataset characteristics and objective to optimize. Overall, SAM and SAM2 prompted with a bounding box in combination with the center point for all the components of an object yield the best results across all tested settings. As the results depend on multiple factors, we provide a guideline for informed decision-making in 2D prompting with non-interactive, ”optimal” prompts.

arxiv情報

著者 Caroline Magg,Hoel Kervadec,Clara I. Sánchez
発行日 2024-11-13 14:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク