SAMUS: Adapting Segment Anything Model for Clinically-Friendly and Generalizable Ultrasound Image Segmentation

要約

著名なユニバーサル画像セグメンテーション モデルであるセグメント エニシング モデル (SAM) は、最近、医療画像セグメンテーションの分野でかなりの注目を集めています。
自然画像に対する SAM の優れたパフォーマンスにもかかわらず、医療画像、特に低コントラスト、かすかな境界、複雑な形状、および小さなサイズのオブジェクトを含む画像に直面すると、大幅なパフォーマンスの低下と限られた一般化に対処します。
本稿では、超音波画像セグメンテーションに特化したユニバーサルモデルである SAMUS を提案します。
以前の SAM ベースのユニバーサル モデルとは対照的に、SAMUS はより優れた一般化だけでなく、導入コストの削減も追求しており、臨床アプリケーションにより適したものになっています。
具体的には、SAM に基づいて並列 CNN ブランチが導入され、ブランチ間の注意を通じて局所特徴を ViT エンコーダに注入し、医療画像のセグメンテーションを改善します。
次に、位置アダプタと機能アダプタが開発され、SAM を自然領域から医療領域まで、また、より臨床に適した展開のために、必要な大サイズの入力 (1024×1024) から小さなサイズの入力 (256×256) に SAM を適応させます。
約 30,000 の画像と 69,000 のマスクで構成され、6 つのオブジェクト カテゴリをカバーする包括的な超音波データセットが検証のために収集されます。
広範な比較実験により、タスク固有の評価と一般化評価の両方において、最先端のタスク固有モデルおよび普遍的基盤モデルに対する SAMUS の優位性が実証されました。
さらに、SAMUS は長いシーケンスのエンコーディングの制約から解放されているため、エントリーレベルの GPU に展開できます。
コード、データ、モデルは https://github.com/xianlin7/SAMUS で公開されます。

要約(オリジナル)

Segment anything model (SAM), an eminent universal image segmentation model, has recently gathered considerable attention within the domain of medical image segmentation. Despite the remarkable performance of SAM on natural images, it grapples with significant performance degradation and limited generalization when confronted with medical images, particularly with those involving objects of low contrast, faint boundaries, intricate shapes, and diminutive sizes. In this paper, we propose SAMUS, a universal model tailored for ultrasound image segmentation. In contrast to previous SAM-based universal models, SAMUS pursues not only better generalization but also lower deployment cost, rendering it more suitable for clinical applications. Specifically, based on SAM, a parallel CNN branch is introduced to inject local features into the ViT encoder through cross-branch attention for better medical image segmentation. Then, a position adapter and a feature adapter are developed to adapt SAM from natural to medical domains and from requiring large-size inputs (1024×1024) to small-size inputs (256×256) for more clinical-friendly deployment. A comprehensive ultrasound dataset, comprising about 30k images and 69k masks and covering six object categories, is collected for verification. Extensive comparison experiments demonstrate SAMUS’s superiority against the state-of-the-art task-specific models and universal foundation models under both task-specific evaluation and generalization evaluation. Moreover, SAMUS is deployable on entry-level GPUs, as it has been liberated from the constraints of long sequence encoding. The code, data, and models will be released at https://github.com/xianlin7/SAMUS.

arxiv情報

著者 Xian Lin,Yangyang Xiang,Li Zhang,Xin Yang,Zengqiang Yan,Li Yu
発行日 2023-09-13 09:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク