Improved Baselines with Synchronized Encoding for Universal Medical Image Segmentation

要約

強力なゼロショット一般化機能で知られる大規模な基礎モデルは、広範囲のダウンストリームタスクに適用できます。
ただし、医療画像セグメンテーションの基礎モデルの開発は、自然画像と医療画像の間のドメインギャップにより、重要な課題をもたらします。
セグメントに基づく微調整技術は、モデル(SAM)が調査されているものですが、主にドメイン固有のアーキテクチャデザインを組み込むことなく、データのスケーリングまたは洗練された推論戦略に焦点を当て、ゼロショットパフォーマンスを制限します。
標準的な推論設定でのセグメンテーションパフォーマンスを最適化し、将来の研究のための強力なベースラインを提供するために、Syncsamを導入します。Syncsamは、畳み込みと変圧器の特徴を同期方法で統合する同期されたデュアルブランチエンコーダーを採用し、医療画像エンコードを強化し、マルチスケールのデュアルブランチの装飾を強化します。
SyncSamは、SA-MED2D-20MとIMED-361Mの2つの最大の医療画像セグメンテーションデータセットでトレーニングされているため、ユニバーサル医療画像セグメンテーションのための一連の事前に訓練されたモデルが生じます。
実験結果は、Syncsamがテストセットで最先端のパフォーマンスを達成するだけでなく、目に見えないデータセットで強力なゼロショット機能を示すことを示しています。
コードとモデルの重みは、https://github.com/hhankyangg/syncsamで入手できます。

要約(オリジナル)

Large foundation models, known for their strong zero-shot generalization capabilities, can be applied to a wide range of downstream tasks. However, developing foundation models for medical image segmentation poses a significant challenge due to the domain gap between natural and medical images. While fine-tuning techniques based on the Segment Anything Model (SAM) have been explored, they primarily focus on scaling up data or refining inference strategies without incorporating domain-specific architectural designs, limiting their zero-shot performance. To optimize segmentation performance under standard inference settings and provide a strong baseline for future research, we introduce SyncSAM, which employs a synchronized dual-branch encoder that integrates convolution and Transformer features in a synchronized manner to enhance medical image encoding, and a multi-scale dual-branch decoder to preserve image details. SyncSAM is trained on two of the largest medical image segmentation datasets, SA-Med2D-20M and IMed-361M, resulting in a series of pre-trained models for universal medical image segmentation. Experimental results demonstrate that SyncSAM not only achieves state-of-the-art performance on test sets but also exhibits strong zero-shot capabilities on unseen datasets. The code and model weights are available at https://github.com/Hhankyangg/SyncSAM.

arxiv情報

著者 Sihan Yang,Xuande Mi,Jiadong Feng,Haixia Bi,Hai Zhang,Jian Sun
発行日 2025-02-27 15:24:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク