要約
現在の医用画像セグメンテーションのアプローチには、マルチスケール情報を深く調査し、ローカルの詳細テクスチャとグローバルなコンテキストの意味情報を効果的に組み合わせるには限界があります。
その結果、過剰なセグメンテーション、過小なセグメンテーション、および不鮮明なセグメンテーション境界が発生します。
これらの課題に取り組むために、私たちはマルチスケールの特徴表現をさまざまな観点から検討し、畳み込みニューラル ネットワーク (CNN) とビジョン トランスフォーマー (ViT) の両方の利点を統合する、新規で軽量なマルチスケール アーキテクチャ (LM-Net) を提案します。
セグメンテーションの精度が向上します。
LM-Net は、軽量のマルチブランチ モジュールを採用して、マルチスケールの機能を同じレベルでキャプチャします。
さらに、ローカル ディテール テクスチャと、さまざまなレベルのマルチスケール フィーチャによるグローバル セマンティクスを同時にキャプチャするための 2 つのモジュール、ローカル フィーチャー トランスフォーマー (LFT) とグローバル フィーチャー トランスフォーマー (GFT) を導入します。
LFT はローカル ウィンドウ セルフ アテンションを統合してローカルの詳細テクスチャをキャプチャし、GFT はグローバル セルフ アテンションを活用してグローバル コンテキスト セマンティクスをキャプチャします。
これらのモジュールを組み合わせることで、私たちのモデルはローカル表現とグローバル表現の間の相補性を実現し、医療画像セグメンテーションにおけるセグメンテーション境界の不鮮明さの問題を軽減します。
LM-Net の実現可能性を評価するために、さまざまなモダリティを備えた 3 つの公的に利用可能なデータセットに対して広範な実験が行われました。
私たちが提案したモデルは、4.66G FLOP と 5.4M パラメータのみを必要としながら、以前の方法を上回る最先端の結果を達成します。
異なるモダリティを備えた 3 つのデータセットに関するこれらの最先端の結果は、さまざまな医療画像セグメンテーション タスクに対する私たちが提案する LM-Net の有効性と適応性を示しています。
要約(オリジナル)
Current medical image segmentation approaches have limitations in deeply exploring multi-scale information and effectively combining local detail textures with global contextual semantic information. This results in over-segmentation, under-segmentation, and blurred segmentation boundaries. To tackle these challenges, we explore multi-scale feature representations from different perspectives, proposing a novel, lightweight, and multi-scale architecture (LM-Net) that integrates advantages of both Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) to enhance segmentation accuracy. LM-Net employs a lightweight multi-branch module to capture multi-scale features at the same level. Furthermore, we introduce two modules to concurrently capture local detail textures and global semantics with multi-scale features at different levels: the Local Feature Transformer (LFT) and Global Feature Transformer (GFT). The LFT integrates local window self-attention to capture local detail textures, while the GFT leverages global self-attention to capture global contextual semantics. By combining these modules, our model achieves complementarity between local and global representations, alleviating the problem of blurred segmentation boundaries in medical image segmentation. To evaluate the feasibility of LM-Net, extensive experiments have been conducted on three publicly available datasets with different modalities. Our proposed model achieves state-of-the-art results, surpassing previous methods, while only requiring 4.66G FLOPs and 5.4M parameters. These state-of-the-art results on three datasets with different modalities demonstrate the effectiveness and adaptability of our proposed LM-Net for various medical image segmentation tasks.
arxiv情報
著者 | Zhenkun Lu,Chaoyin She,Wei Wang,Qinghua Huang |
発行日 | 2025-01-07 14:47:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google