Segment Anything Model for Medical Images?

要約

Segment Anything Model (SAM) は、一般的な画像セグメンテーションの最初の基礎モデルです。
さまざまな自然な画像セグメンテーション タスクで素晴らしい結果を達成しました。
ただし、医療画像セグメンテーション (MIS) は、複雑なモダリティ、微細な解剖学的構造、不確実で複雑なオブジェクトの境界、広範囲にわたるオブジェクトのスケールのため、より困難です。
医療データに対する SAM のパフォーマンスを完全に検証するために、53 のオープンソース データセットを収集および分類し、18 のモダリティ、84 のオブジェクト、125 のオブジェクトとモダリティのペアのターゲット、1050K の 2D 画像、および 6033K のマスクを含む大規模な医療セグメンテーション データセットを構築しました。
私たちは、いわゆる COSMOS 1050K データセットに関するさまざまなモデルと戦略を包括的に分析しました。
私たちの調査結果は主に次のとおりです。 1) SAM は、いくつかの特定のオブジェクトでは顕著なパフォーマンスを示しましたが、他の状況では不安定で、不完全で、あるいはまったく機能しませんでした。
2) 大きな ViT-H を備えた SAM は、小さな ViT-B を備えた SAM よりも優れた全体的なパフォーマンスを示しました。
3) SAM は、すべてモードよりも手動ヒント、特にボックスを使用した方が優れたパフォーマンスを発揮しました。
4) SAM は、高いラベル付け品質と短時間で人間によるアノテーションを支援できます。
5) SAM は中心点とタイト ボックス プロンプトのランダム性の影響を受けやすいため、重大なパフォーマンス低下が発生する可能性があります。
6) SAM は、1 つまたは少数のポイントではインタラクティブな方法よりも優れたパフォーマンスを示しましたが、ポイントの数が増加するとパフォーマンスを上回ります。
7) SAM のパフォーマンスは、境界の複雑さ、強度の違いなどを含むさまざまな要因と相関していました。 8) 特定の医療タスクに合わせて SAM を微調整すると、平均 DICE パフォーマンスが ViT-B と ViT-H でそれぞれ 4.39% と 6.68% 向上する可能性があります。
この包括的なレポートが、研究者が MIS における SAM アプリケーションの可能性を探求し、SAM を適切に使用および開発する方法の指針となることを願っています。

要約(オリジナル)

The Segment Anything Model (SAM) is the first foundation model for general image segmentation. It has achieved impressive results on various natural image segmentation tasks. However, medical image segmentation (MIS) is more challenging because of the complex modalities, fine anatomical structures, uncertain and complex object boundaries, and wide-range object scales. To fully validate SAM’s performance on medical data, we collected and sorted 53 open-source datasets and built a large medical segmentation dataset with 18 modalities, 84 objects, 125 object-modality paired targets, 1050K 2D images, and 6033K masks. We comprehensively analyzed different models and strategies on the so-called COSMOS 1050K dataset. Our findings mainly include the following: 1) SAM showed remarkable performance in some specific objects but was unstable, imperfect, or even totally failed in other situations. 2) SAM with the large ViT-H showed better overall performance than that with the small ViT-B. 3) SAM performed better with manual hints, especially box, than the Everything mode. 4) SAM could help human annotation with high labeling quality and less time. 5) SAM was sensitive to the randomness in the center point and tight box prompts, and may suffer from a serious performance drop. 6) SAM performed better than interactive methods with one or a few points, but will be outpaced as the number of points increases. 7) SAM’s performance correlated to different factors, including boundary complexity, intensity differences, etc. 8) Finetuning the SAM on specific medical tasks could improve its average DICE performance by 4.39% and 6.68% for ViT-B and ViT-H, respectively. We hope that this comprehensive report can help researchers explore the potential of SAM applications in MIS, and guide how to appropriately use and develop SAM.

arxiv情報

著者 Yuhao Huang,Xin Yang,Lian Liu,Han Zhou,Ao Chang,Xinrui Zhou,Rusi Chen,Junxuan Yu,Jiongquan Chen,Chaoyu Chen,Sijing Liu,Haozhe Chi,Xindi Hu,Kejuan Yue,Lei Li,Vicente Grau,Deng-Ping Fan,Fajin Dong,Dong Ni
発行日 2024-01-17 14:42:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク