Generalist Vision Foundation Models for Medical Imaging: A Case Study of Segment Anything Model on Zero-Shot Medical Segmentation

要約

タイトル:医療画像における汎用的視覚モデル:Zero-Shot Medical SegmentationでのSegment Anything Modelの事例研究

要約:

– Segment Anything Model (SAM) が医療画像におけるゼロショットセグメンテーションにおいてどのようなパフォーマンスを示すかを検討し、さまざまな画像モダリティ(光干渉断層法、磁気共鳴画像、コンピュータ断層撮影)および皮膚科、眼科、放射線科などのさまざまなアプリケーションをカバーする9つの医療画像セグメンテーションベンチマークで、量的および質的なゼロショットセグメンテーション結果を報告します。
– SAMは、一般的なドメインの画像では驚くほどのセグメンテーションパフォーマンスを示す一方で、医療画像などの未知のドメインの画像ではゼロショットセグメンテーションパフォーマンスに制限があることがわかりました。
– SAMは、異なる未知の医療ドメインにわたってゼロショットセグメンテーションのパフォーマンスが異なることも示しました。
– 構造化ターゲット(血管など)については、SAMのゼロショットセグメンテーションが完全に失敗することがあり、少量のデータで単純なファインチューニングを行うとセグメンテーション品質が著しく向上することがあることを示しました。
– 個々のタスクを解決するために汎用的な視覚基盤モデルが医療画像においてどのように機能するか、また、ファインチューニングを通じて望ましいパフォーマンスを達成し、大規模かつ多様な医療データセットにアクセスする上での課題に取り組む可能性があることを示しました。

要約(オリジナル)

We examine the recent Segment Anything Model (SAM) on medical images, and report both quantitative and qualitative zero-shot segmentation results on nine medical image segmentation benchmarks, covering various imaging modalities, such as optical coherence tomography (OCT), magnetic resonance imaging (MRI), and computed tomography (CT), as well as different applications including dermatology, ophthalmology, and radiology. Our experiments reveal that while SAM demonstrates stunning segmentation performance on images from the general domain, for those out-of-distribution images, e.g., medical images, its zero-shot segmentation performance is still limited. Furthermore, SAM demonstrated varying zero-shot segmentation performance across different unseen medical domains. For example, it had a 0.8704 mean Dice score on segmenting under-bruch’s membrane layer of retinal OCT, whereas the segmentation accuracy drops to 0.0688 when segmenting retinal pigment epithelium. For certain structured targets, e.g., blood vessels, the zero-shot segmentation of SAM completely failed, whereas a simple fine-tuning of it with small amount of data could lead to remarkable improvements of the segmentation quality. Our study indicates the versatility of generalist vision foundation models on solving specific tasks in medical imaging, and their great potential to achieve desired performance through fine-turning and eventually tackle the challenges of accessing large diverse medical datasets and the complexity of medical domains.

arxiv情報

著者 Peilun Shi,Jianing Qiu,Sai Mu Dalike Abaxi,Hao Wei,Frank P. -W. Lo,Wu Yuan
発行日 2023-04-25 08:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク