要約
医療画像の分類は臨床的意思決定には重要ですが、正確性、解釈可能性、一般化に対する要求は依然として困難です。
このペーパーでは、マルチオルガンの医療画像分類のための新しい神経アルゴリズム融合(NAF)メカニズムを特徴とする説明可能なビジョンMAMBAアーキテクチャであるEVM融合を紹介します。
EVM融合は、Vision Mamba(VIM)モジュールによって強化されたDensenetおよびU-Netベースの経路が、従来の特徴経路と並行して動作するマルチパスデザインを活用します。
これらの多様な機能は、2段階の融合プロセスを介して動的に統合されています。クロスモーダルの注意に続いて、適応融合アルゴリズムを学習する反復NAFブロックが続きます。
内因性の説明可能性は、パス固有の空間的注意、vim {\ delta}値マップ、従来の特徴セーテンション、およびクロスモーダルの注意の重量を通じて埋め込まれています。
多様な9クラスのマルチオルガン医療画像データセットの実験は、EVM融合の強力な分類パフォーマンスを実証し、99.75%のテスト精度を達成し、意思決定プロセスに関する多面的な洞察を提供し、医療診断における信頼できるAIの可能性を強調しています。
要約(オリジナル)
Medical image classification is critical for clinical decision-making, yet demands for accuracy, interpretability, and generalizability remain challenging. This paper introduces EVM-Fusion, an Explainable Vision Mamba architecture featuring a novel Neural Algorithmic Fusion (NAF) mechanism for multi-organ medical image classification. EVM-Fusion leverages a multipath design, where DenseNet and U-Net based pathways, enhanced by Vision Mamba (Vim) modules, operate in parallel with a traditional feature pathway. These diverse features are dynamically integrated via a two-stage fusion process: cross-modal attention followed by the iterative NAF block, which learns an adaptive fusion algorithm. Intrinsic explainability is embedded through path-specific spatial attention, Vim {\Delta}-value maps, traditional feature SE-attention, and cross-modal attention weights. Experiments on a diverse 9-class multi-organ medical image dataset demonstrate EVM-Fusion’s strong classification performance, achieving 99.75% test accuracy and provide multi-faceted insights into its decision-making process, highlighting its potential for trustworthy AI in medical diagnostics.
arxiv情報
著者 | Zichuan Yang |
発行日 | 2025-05-26 16:40:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google