HRMedSeg: Unlocking High-resolution Medical Image segmentation via Memory-efficient Attention Modeling

要約

高解像度のセグメンテーションは、医療画像からマイクロイメージング情報を抽出することにより、正確な疾患診断に重要です。
既存の変圧器ベースのエンコーダデコーダーフレームワークは、医療セグメンテーションで顕著な汎用性とゼロショットのパフォーマンスを実証しています。
有益ですが、通常、大規模なセグメンテーションマスク予測を処理する際には、巨大なメモリコストが必要です。これは、実際のシナリオに適用するのに費用がかかります。
この制限に対処するために、HRMedSegと呼ばれる高解像度の医療画像セグメンテーションのメモリ効率の高いフレームワークを提案します。
具体的には、最初に、イメージエンコーダーとして軽量ゲートビジョントランス(LGVIT)を考案し、線形の複雑さで長距離依存関係をモデル化します。
次に、効率的なクロスマルチスケールデコーダー(ECM-Decoder)を設計して、高解像度セグメンテーションマスクを生成します。
さらに、提案されているモデルの可能性を解き放つために、事前に取引前に特徴の蒸留を利用します。
広範な実験により、HRMedSegは、多様な高解像度の医療画像セグメンテーションタスクの最先端を上回ることが明らかになりました。
特に、HRMedSegは、微調整中にバッチごとに0.59GB GPUメモリしか使用していないため、トレーニングコストが低くなります。
その上、HRMedSegがセグメントのAnything Model(SAM)を満たすと、HRMedSegsamはSAM-Hの0.61%のパラメーターを取得します。
このコードは、https://github.com/xq141839/hrmedsegで入手できます。

要約(オリジナル)

High-resolution segmentation is critical for precise disease diagnosis by extracting micro-imaging information from medical images. Existing transformer-based encoder-decoder frameworks have demonstrated remarkable versatility and zero-shot performance in medical segmentation. While beneficial, they usually require huge memory costs when handling large-size segmentation mask predictions, which are expensive to apply to real-world scenarios. To address this limitation, we propose a memory-efficient framework for high-resolution medical image segmentation, called HRMedSeg. Specifically, we first devise a lightweight gated vision transformer (LGViT) as our image encoder to model long-range dependencies with linear complexity. Then, we design an efficient cross-multiscale decoder (ECM-Decoder) to generate high-resolution segmentation masks. Moreover, we utilize feature distillation during pretraining to unleash the potential of our proposed model. Extensive experiments reveal that HRMedSeg outperforms state-of-the-arts in diverse high-resolution medical image segmentation tasks. In particular, HRMedSeg uses only 0.59GB GPU memory per batch during fine-tuning, demonstrating low training costs. Besides, when HRMedSeg meets the Segment Anything Model (SAM), our HRMedSegSAM takes 0.61% parameters of SAM-H. The code is available at https://github.com/xq141839/HRMedSeg.

arxiv情報

著者 Qing Xu,Zhenye Lou,Chenxin Li,Xiangjian He,Rong Qu,Tesema Fiseha Berhanu,Yi Wang,Wenting Duan,Zhen Chen
発行日 2025-04-08 16:48:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク