要約
マルチモーダル医用画像融合は、さまざまな画像モダリティからの補完的な情報を統合して統一表現に統合する重要なタスクであり、それによって診断精度と治療計画を向上させます。
ディープ ラーニング手法、特に畳み込みニューラル ネットワーク (CNN) とトランスフォーマーは、融合パフォーマンスが大幅に向上していますが、既存の CNN ベースの手法の一部は、きめの細かいマルチスケールおよびエッジ特徴を捕捉する点で不十分であり、次善の特徴統合につながります。
一方、トランスフォーマーベースのモデルは、トレーニング段階と融合段階の両方で計算量が多く、リアルタイムの臨床使用には非現実的です。
さらに、融合画像の臨床応用は未開拓のままです。
この論文では、効果的なマルチスケール特徴抽出のための拡張残留注意ネットワーク モジュールを導入し、エッジ詳細学習を強化する勾配演算子と組み合わせることで、これらの制限に対処する新しい CNN ベースのアーキテクチャを提案します。
高速かつ効率的な融合を保証するために、ソフトマックスの加重核ノルムに基づくパラメータフリーの融合戦略を提示します。これは、トレーニングまたは推論中に追加の計算を必要としません。
下流の脳腫瘍分類タスクを含む広範な実験により、私たちのアプローチが視覚品質、テクスチャ保存、融合速度の点でさまざまなベースライン手法を上回っており、実際の臨床応用に実用的なソリューションとなる可能性があることが実証されました。
コードは https://github.com/simonZhou86/en_dran で公開されます。
要約(オリジナル)
Multimodal medical image fusion is a crucial task that combines complementary information from different imaging modalities into a unified representation, thereby enhancing diagnostic accuracy and treatment planning. While deep learning methods, particularly Convolutional Neural Networks (CNNs) and Transformers, have significantly advanced fusion performance, some of the existing CNN-based methods fall short in capturing fine-grained multiscale and edge features, leading to suboptimal feature integration. Transformer-based models, on the other hand, are computationally intensive in both the training and fusion stages, making them impractical for real-time clinical use. Moreover, the clinical application of fused images remains unexplored. In this paper, we propose a novel CNN-based architecture that addresses these limitations by introducing a Dilated Residual Attention Network Module for effective multiscale feature extraction, coupled with a gradient operator to enhance edge detail learning. To ensure fast and efficient fusion, we present a parameter-free fusion strategy based on the weighted nuclear norm of softmax, which requires no additional computations during training or inference. Extensive experiments, including a downstream brain tumor classification task, demonstrate that our approach outperforms various baseline methods in terms of visual quality, texture preservation, and fusion speed, making it a possible practical solution for real-world clinical applications. The code will be released at https://github.com/simonZhou86/en_dran.
arxiv情報
著者 | Meng Zhou,Yuxuan Zhang,Xiaolan Xu,Jiayi Wang,Farzad Khalvati |
発行日 | 2024-11-18 18:11:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google